摘要

【目的】人名在搜索日志中大量存在,搜索日志中人名识别研究有助于提高搜索引擎的检索效果。【方法】提出一种搜索日志中识别中文人名的方法,首先分析日志中人名的内部组成结构以及外部上下文信息,提取7个特征,选用合适的特征模板,应用条件随机场模型初步识别人名。然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律,设计贝叶斯条件概率计算公式筛选更多的人名。【结果】在搜狗日志中进行实验,开放测试结果准确率达到95%,F值达到91%。【局限】需要人工标注一定规模的训练语料。【结论】实验结果表明,该方法对于搜索日志中的人名识别是行之有效的。