摘要
近年来,随着大数据挖掘技术在医疗行业的迅速发展,临床精准治疗成为医疗大数据领域的研究热点。基于UCI数据库中乳腺癌数据集,通过构建乳腺癌二分类算法来预测乳腺肿瘤类型。其中针对不平衡数据集的处理、特征选择算法的优化以及分类准确率的评估,使用了机器学习技术包括随机过采样算法、Least absolute shrinkage and selection operator(Lasso)回归进行特征选择、序列前向选择(SFS)的特征选择算法。结果表明包含其中的6个特征的随机森林算法分类准确率最高(97.07%),相对于未进行特征选择算法的准确率有所提高,有可能在乳腺癌检测方面提供新的思路。
- 出版日期2023
- 单位吉林化工学院