摘要

目的 从药材成分集合与化合物分类集合相似性差异的角度,使用集成学习算法构建药材主归经络判别模型,为中药归经判别提供新方法。方法 收集中药药材及其对应归经信息,通过TCMSP数据库收集药材对应成分。利用ChemSpider数据库及RDKit包收集药材成分的物理性质及指纹特征并对数据进行降重和归一化处理,使用K均值聚类算法构建化合物分类集合。使用余弦相似性计算药材成分、化合物分类集合相似性,集合相似性的差异将用于中药归经的判别。最后使用集成学习算法建立药材归经判别模型,并对模型进行对比评价。结果使用Random Forest,XGBoost,Adaboost三种算法构建药材主归经络判别模型,使用十折交叉验证进行参数调优,根据最优参数下测试集上的平衡准确率(balance accuracy)评价模型优劣,三种算法中随机森林算法表现出了最优的性能,平衡准确率达到了0.72。结论 本研究探索了中药药材成分与主归经络之间的关系,建立了药材归经判别模型,为中药归经判别量化提供一种新思路和新方法。