段落及类别分布的特征选择方法

杨凤芹; 樊娜; 孙红光; 孙铁利; 彭杨

摘要

特征选择是文本分类过程中解决数据高维问题的重要步骤.现有特征选择方法主要是基于特征词的词频或文档频率.虽然这些信息在一定程度上度量了特征词的重要程度,但它们不能刻画特征词在文档中的分布情况.针对这一问题,将文档的自然段落作为统计单元,提出了特征词的段落频率,该度量标准能够描述特征词在文档中的均匀分布程度.然后,将特征词的段落频率与特征词在类内和类间的分布信息相结合提出一种新的特征选择方法 FSPC.为了验证方法的有效性,采用支持向量机和朴素贝叶斯作为分类器,在复旦语料库和搜狐新闻语料库上将FSPC与CHI Square,DF,IG和CMFS四种特征选择方法进行对比实验.实验结果表明,就评价指标F1值而言,FSPC方法的性能优于所对比的方法.

出版日期2018
单位东北师范大学

收藏分享被引浏览

更新时间：2024-04-25 14:16

段落及类别分布的特征选择方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友