摘要

本发明公开了一种基于分布的垃圾邮件分类数据的安全属性选择方法,包括步骤:1)获取给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性;计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值;3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值;4)根据属性的评估值和需要选择的属性个数选择出若干个属性;5)让数据集的数据部分仅保留已选择属性,供后续垃圾邮件分类算法使用。本发明解决了传统属性选择方法对安全性问题缺乏考虑的不足,同时改善了现有安全属性选择方法,减少计算泛化能力的时间开销,能更精确地评估属性的安全性。