摘要

实际应用中常有从非结构化文本中提取符合指定模式信息的需求。在分析了使用正则表达式处理这类问题的缺陷之后,提出了一种面向模式的文本数据描述模型,将模式分为终端模式、结构体模式、联合体模式和数组模式,并详细介绍了各模式在文本匹配以及数据映射中的作用,最后通过相应的示例演示了模型的结构性与便利性。