摘要

蛋白质折叠速率预测问题是计算生物学和生物信息学中的核心问题之一.科研工作者相继提出了许多参数和方法来探索折叠速率的决定因素.但蛋白质编码序列复杂度信息对蛋白质折叠速率的影响未被提及.提取编码序列LZ复杂度信息,融合多特征信息,建立线性回归模型进行折叠速率预测.该方法能在不需要结构信息的情况下,直接从蛋白质的编码序列出发对全β类蛋白质进行折叠速率进行预测.在卡方检验方法的验证下,发现折叠速率的预测值与实验值有很好的相关性,相关系数能达到0.9712.这一精度明显优于其他基于序列的方法,充分说明序列LZ复杂度是一个有效特征信息,蛋白质编码序列LZ复杂度信息确实影响蛋白质折叠速率及其结构.