摘要

在案例推理技术中,属性集合表征了对系统有影响的各种因子的集合,属性的选择和约简成为决定系统性能的关键因素。该文在分析属性约简技术的基础上,研究了基于熵的两种属性选择策略,即信息增益法和增益比率法,用层次化k-fo ld交叉验证和k-近邻(k-NN)相结合的技术,设计了5种方案,分别从不同角度来考察两种属性选择策略对案例分类性能的影响。实验结果表明,基于熵的属性选择策略能找到一个充分分离案例类别的属性子集,改善属性的表示空间。