摘要

传统的互信息特征选择方法受边缘概率的影响较大,可能产生稀有词的概率评估分高于常用词的评估分,从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上,通过引入分散度及平均词频两个参数,将互信息方法与特征的词频相关联,从而使互信息的分类更加准确。实验结果表明,该方法使分类效果更好。