摘要

【目的/意义】针对已有敏感词典存在规模小、敏感词分类不全等问题,提出基于敏感语义和复合共现的敏感词典构建策略。【方法/过程】首先,依据从多个社交平台搜集的敏感词构建初始词集,通过内容分析和类别标注将初始词集划分为基础敏感词典和候选敏感词集;其次,融合敏感先验概率、敏感语义相关性和复合共现获得敏感语义扩展词集;最后,依据定义的综合敏感度计算候选敏感词和敏感语义扩展词集的敏感度,实现对候选敏感词的筛选,完成扩展敏感词典的构建。【结果/结论】与已有的敏感词典相比,本文构建的扩展敏感词典在敏感信息识别的准确率、召回率和F1值上最高分别提升了17%、24%和22%。【创新/局限】从用于敏感信息识别的重要基础资源入手,构建了基础敏感词典,并通过综合敏感度筛选出有效的扩展词,实现对基础敏感词典的扩展。不足之处是词语敏感度的影响指标挖掘不够充分。

全文