摘要

在中文垃圾邮件过滤系统中,基于内容过滤的Nave Bayes算法得到了广泛应用。本文将多种特征结合构建邮件文本向量,应用八种文本分类特征选择方法在Nave Bayes算法上进行实验验证,通过准确率和召回率结合的综合性能指标F1值进行性能评价,结果表明,采用类别区分词、优势率、信息增益、期望交叉熵、CHI统计和文本证据权等六种特征选择方法应用于多特征结合邮件文本向量的过滤取得了较好的垃圾邮件过滤性能,反垃圾邮件效果较好。