摘要

根据基因表达谱数据高维度、小样本、高噪声的特点,提出一种基于相关特征选择(Correlation-based Feature Selection,CFS)的分层抽样的基因特征选择方法(简称CFS-SS)。首先,利用CFS算法提取与分类相关性大的特征基因集,然后通过分层方法构造多层特征子集空间,在部分层空间中寻找最优特征子集。在Leukemia,Colon,Prostate数据集上进行了交叉测试实验.实验结果表明,CFS-SS有效地从不同层次的特征子集样本中可以提取出有价值的基因特征集,在不同的分类器上取得较好的分类性能。

全文