基于机器学习算法的小于胎龄儿风险预测

作者:张瑞敏; 王科科; 李金波; 陈转转; 杨海澜; 邬惟为; 冯永亮; 王素萍*; 张新日*
来源:中华疾病控制杂志, 2023, 27(08): 922-962.
DOI:10.16462/j.cnki.zhjbkz.2023.08.009

摘要

目的 评价极端梯度提升(extreme gradient boosting, XGBoost)、支持向量机(support vector machine, SVM)和朴素贝叶斯等6种机器学习模型与传统logistic回归分析模型对小于胎龄儿(small for gestational age, SGA)的预测效能。方法 选取2012年3月―2016年9月在山西医科大学第一医院产科住院分娩的9 972例孕妇作为研究对象,采用问卷调查及从医院信息系统收集数据。依据分娩结局分为SGA组(n=1 124)与非SGA组(n=8 848),按7.50∶2.50比例划分训练集与测试集。采用多因素logistic回归模型筛选危险因素,基于XGBoost、SVM、朴素贝叶斯、梯度提升决策树(gradient boosting decision tree, GBDT)、K最近邻(k-nearest neighbor, KNN)算法及传统logistic回归分析模型方法分别建立预测模型,使用受试者工作特征曲线的曲线下面积(area under the curve, AUC)、准确率和精确度等指标比较预测性能。结果 Logistic回归模型结果显示,妊娠期高血压和子痫等7项变量是SGA的影响因素。将以上因素纳入预测模型,SVM算法构建的预测模型效能最佳,AUC达0.72,模型准确率为71%。传统logistic回归分析模型表现欠佳,AUC为0.71,准确率为66%。结论 基于机器学习算法尤其是SVM算法建立的SGA风险预测模型具有较好的效能,能够有效预测山西省SGA的发生,为实现SGA的一级预防提供参考。

  • 出版日期2023
  • 单位山西医科大学; 公共卫生学院; 山西医科大学第一医院

全文