摘要

电商仿真实训平台中需要通过提取商品描述的主题词来检验商品描述编写质量,传统的TF-IDF算法因提取到的文本特征单一导致词语权重分配不准确。针对商品详情类短文本主题词提取的场景,在传统TF-IDF算法基础上增加词语的位置、词性等信息,并结合新提出的一种针对上类场景的特征强化方法——“数据字典”,通过多元素回归分析的方式进行特征融合,对词语权重重新赋值。算法改进后,主题词提取的正确率提升十多个百分点,使电商仿真实训平台的评测结果准确率大幅提高,具有一定的实际应用价值。