摘要

针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在6个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,所提算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%,0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快速度获得约简。

全文