摘要

词汇链是文本中一系列词汇关联而成的语义链,构造词汇链有助于提高文本的连贯性,把握文本主题。借鉴概念层次网络(HNC)理论对词汇语义进行形式化描述的原理,研究基于语义网络节点遍历计算的词汇链构造方法。首先对汉语文本进行分词处理,从知识库中获得词语的HNC符号,然后对语义符号进行解析,获得词语的语义关联性并构造词汇链;最后,对词汇链进行优选处理,设定阈值获得优选词汇链。实验结果表明,该方法构造的词汇链可接受度较高,对主题标引、自动文摘、文本分类等有重要价值。