摘要

特征选择是文本分类过程中解决数据高维问题的重要步骤.现有特征选择方法主要是基于特征词的词频或文档频率.虽然这些信息在一定程度上度量了特征词的重要程度,但它们不能刻画特征词在文档中的分布情况.针对这一问题,将文档的自然段落作为统计单元,提出了特征词的段落频率,该度量标准能够描述特征词在文档中的均匀分布程度.然后,将特征词的段落频率与特征词在类内和类间的分布信息相结合提出一种新的特征选择方法 FSPC.为了验证方法的有效性,采用支持向量机和朴素贝叶斯作为分类器,在复旦语料库和搜狐新闻语料库上将FSPC与CHI Square,DF,IG和CMFS四种特征选择方法进行对比实验.实验结果表明,就评价指标F1值而言,FSPC方法的性能优于所对比的方法.