摘要

妊娠期肝内胆汁淤积症(ICP)是妊娠期严重危害母婴的并发症,原始的ICP数据集中含有大量的生物标志物信息,特征间通常会存在相关性,且不同妊娠结局间的人数差异较大。论文针对ICP数据集的高冗余和非平衡性,提出了一种新的特征选择算法—SC-ReliefF。SC-ReliefF算法在ReliefF的基础上,根据类内平均距离提出了新的样本选择方法,能很好地适应非平衡数据的特点;同时为了减少特征冗余,SC-ReliefF算法引入余弦相似度,将其作为特征冗余度的度量方式,提出一种去冗余方法,能够得到更小的特征子集。在医院提供的临床数据实验表明,SC-ReliefF算法与ReliefF、mRMR和RS-ReliefF相比得到的ICP特征子集规模较小,且在SVM和BP-NN上具有较好的分类效果,能够提升学习的效率。

  • 出版日期2021
  • 单位无锡市妇幼保健院; 枣庄市妇幼保健院; 江苏大学