摘要

目前基于随机森林算法的特征选择方法多以优化总体分类精度为目标。然而,信用风险评价过程中错分代价不对等的不平衡数据广泛存在。此时,用精度作分类性能评价指标不合适。采用ROC曲线下面积AUC值作二分类算法的分类性能指标,构造一个基于随机森林算法的特征选择算法AUCRF,并对UCI机器学习库中的澳大利亚信用数据进行实证分析。结果表明,基于AUCRF算法的模型能以较小的特征子集获得较高的分类性能,AUC=0.934 6。因此,AUCRF算法可用于错分代价不对等的信用风险特征选择。