基于机器学习鼻咽癌关键特征基因筛选及其与免疫细胞相关性分析

作者:张浩轩; 马俊杰; 安韶光; 荀丽雪; 陆进; 蒋成义*
来源:细胞与分子免疫学杂志, 2023, 39(11): 988-995.
DOI:10.13423/j.cnki.cjcmi.009669

摘要

目的 利用机器学习法筛选鼻咽癌(NPC)关键特征基因并分析其与免疫细胞相关性。方法 从基因表达数据集(GEO)下载NPC训练集数据GSE12452与GSE13597以及验证训练集数据GSE53819。首先,对训练集数据进行合并,并筛选差异表达基因(DEG);其次,对DEG进行基因本体论(GO)、京都基因与基因组百科全书(KEGG)、基因集富集分析(GSEA)以及免疫细胞浸润分析;再次,采用最小绝对收缩选择(LASSO)算法和支持向量机(SVM)算法对训练集数据中NPC相关特征基因进行识别并在验证集中检验,同时利用受试者工作特征(ROC)曲线下面积(AUC)确定关键特征基因;最后,分析关键特征基因与免疫细胞的相关性。结果 共得到55个DEG,43个下调基因,12个上调基因;其GO功能主要富集在体液免疫反应、细胞分化、中性粒细胞激活以及趋化因子受体结合等方面;而KEGG主要富集在细胞介素17(IL-17)信号通路上;GSEA富集在细胞周期、细胞外基质受体相互作用、癌症通路以及DNA复制。免疫细胞浸润分析显示,初始B细胞、记忆B细胞以及CD4+静息记忆细胞在NPC显著降低,而CD8+ T细胞、 CD4+初始T细胞、活化CD4+记忆T细胞、滤泡辅助T细胞、 M0和M1巨噬细胞在NPC显著增加。通过LASSO和SVM筛选的特征基因中,仅卷曲螺旋结构域19(CCDC19)、层连蛋白β1亚基(LAMB1)、精子相关抗原6(SPAG6)和RAD51相关蛋白1(RAD51AP1)四个关键特征基因ROC的AUC在训练集与验证集均大于0.9,且与免疫细胞浸润密切相关。结论 通过机器学习算法筛选出NPC发生过程中的关键特征基因CCDC19、 LAMB1、 SPAG6以及RAD51AP1,并与免疫细胞浸润密切相关。

全文