摘要

microRNA(miRNA)是一类长度约为21nt的非编码RNA,具有重要的调控功能。miRNA前体包含一级序列特征和二级结构特征,其中含有冗余和无用的特征,这些特征无益于前体分类模型的分类准确度。因此需要去除冗余特征,进而降低特征维数并提高分类性能。针对miRNA的前体序列数据,已有特征选取方法,仅考虑了特征之间的区分距离。全面考虑了每个特征属性对分类的增益和特征间冗余性,选取的特征有助于建立高效的分类模型。实验结果表明,选取的特征子集有效地提高了miRNA前体分类器的预测性能,取得了更好的分类结果。