摘要

该文主要对中文分词算法过程中的歧义字段的发现和消解进行研究。首先,通过双向最大匹配检索算法和逐词扫描最大匹配法等方法实现中文文本的分词处理,并针对其中所存在的歧义字段,通过计算其互信息和t-信息来实现中文分词歧义的消除。该文所研究的中文分词算法,不仅可以在多个中文分词方案中选择更优的分词方案,消解中文分词歧义;同时,还可以在已有分词方案的基础上,发现更加符合实际情况的分词方案,以提高中文分词的准确性和适用性。

全文