摘要

对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算。而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素。在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度。在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度。