摘要

为建立基于机器学习技术的能够准确预测川贝母商品规格的方法,并且对数据增强技术在药物分析领域的应用进行探讨。对30批样品的UPLC-QDA多通道叠加数据使用Correlation Optimized Warping(COW)算法进行峰校正,并对数据进行归一化处理,通过聚类分析、主成分分析、相关性分析等非监督学习方法,掌握数据大致特点,然后使用逻辑回归算法对数据进行监督学习,并使用条件表格生成对抗网络(Condition Tabular Generative Adversarial Networks,CTGAN)对应生成大量数据,与真实数据分别训练生成逻辑回归分类模型,并对这些模型进行评价。按照真实数据训练的逻辑回归模型交叉验证和测试集验证正确率分别为0.95和1.00,真实数据与CTGAN生成数据一起训练的逻辑回归模型交叉验证和测试集验证正确率分别为0.99和1.00。结果表明,机器学习可以准确地根据UPLC-QDA检测数据预测松贝、青贝和炉贝分类;CTGAN生成数据可以在一定程度上弥补药物分析中数据量不足的问题,提高机器学习模型的精度及预测的能力。

  • 单位
    中国食品药品检定研究院