摘要

语料库为语言研究和自然语言处理提供基础数据服务.传统语料库数据缺乏规范的数据模型,导致无法科学的评价查询结果,大大降低了数据可用性.针对该问题,提出一种面向语料库的数据模型,并讨论了其上的查询问题.首先,给出语料库数据的形式化定义,其次,在关系模型的基础上提出一种面向文本语料库的数据模型,并证明了模型的完备性,在此基础上,扩展传统语料库以KWIC(Key Word In Context)输出为中心的查询语义,定义了语料库数据的查询问题KWIC-EXTENTION.最后,证明这些查询问题的数据复杂度,其中,正匹配查询、负匹配查询、析取匹配查询、n-临近匹配查询的数据复杂度是AC0的,临近正匹配查...