摘要

本发明公开了一种基于多组学数据集的癌症亚型识别方法及系统。该方法包括:获取各患者的样本数据;采用主成分分析方法对所述样本数据进行降维处理;基于降维后的数据构建相似图;所述相似图用于表示各患者之间的相似性;将各相似图投影到低维子空间;在格拉斯曼流形上合并各子空间;基于合并后的子空间,通过k-means聚类算法识别癌症亚型。本发明结合了多层面的分子数据(mRNA、microRNA和甲基化)、临床数据和通路信息,以识别具有不同生物学特征和不同预后的患者群体,从而能够快速、准确的识别癌症亚型。