摘要

在传统表征蛋白质序列的40维特征向量的基础上,依据氨基酸的种类与理化性质,将蛋白质序列40维向量分解为20维、4维和16维3种子特征向量描述。结合33条H1N1流感病毒血凝素(hemagglutinin,HA)蛋白质序列和统计学相关性分析理论,进行了蛋白质序列两两之间及每条病毒蛋白质序列对应的不同子特征向量之间的相关性分析,发现病毒蛋白质序列之间存在高度相关性,且每条病毒蛋白质序列对应的20维子特征向量与其他两种子特征向量之间均不显著相关,而4维与16维子特征向量之间显著相关。进一步依据不同的特征向量对33条HA蛋白质序列进行分类,研究发现依据40维特征向量与16维特征向量进行的分类结果高度一致。因此,在不影响表征病毒序列特性的前提下,对于已有的表征蛋白质序列的40维特征向量,可以用16维的特征向量进行代替,以减少计算复杂度。

全文