摘要

膜蛋白的功能与其类型密切相关,因此膜蛋白类型的预测具有重要意义。针对膜蛋白特征表达过程中出现的特征维数高的问题,结合最大信息系数与遗传算法提出一种两阶段特征选择(MIC-GA)。抽取膜蛋白序列信息中的伪氨基酸组成、二肽组成和位置特异性分数矩阵等特征融合后作为特征参数,并在融合过程中提出一种改进的ReliefF算法(FReliefF)得到更有效的特征分数。基于Stacking集成学习框架,两次使用极端随机树对膜蛋白类型进行合理化预测。结果表明该方法能够有效提高膜蛋白预测的准确率。