摘要

分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。