摘要

【目的】为弥补传统基于静态领域语料的领域术语识别方法的不足,提出一种从搜索引擎查询日志中自动识别领域术语的新方法。【方法】使用四部图对查询日志进行抽象描述,并在其上应用流形排序算法得到所有候选术语关于领域度的排序,取排在前列的术语作为领域术语。【结果】在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果,在Precision@n指标上比基准方法提升约20%。【局限】识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词,这对领域专家的经验提出一定要求。【结论】该方法无需事先准备大规模领域语料以及大量的人工标注,即可构建高质量的领域术语集合,具有较高的实用价值。