摘要

开方检验是目前文本分类中一种常用的特征选择方法。该方法仅关注词语和类别间的关系,而没有考虑词与词之间的关联,因此选择出的特征集具有较大的冗余度。定义了词语的"剩余互信息"概念,提出了对开方检验的选择结果进行优化的方法。使用该方法可以得到既有很强表征性又有很高独立性的特征集。实验表明,该方法表现良好。

全文