摘要

针对电子商务平台存在的大量垃圾评论,提出一种基于随机森林和规则匹配的垃圾识别方法。该方法对样本进行有放回的重复抽取样以建立随机模型,以减弱评论数据集不平衡性的影响。一部分垃圾评论数据特征明显,采用规则匹配进一步提高评论识别的召回率。从现有的电商平台上提取评论数据集进行实验,结果表明基于随机森林分类模型比其他基于基线分类模型分类效果更好,且引入规则匹配机制后,分类效果也有一定程度的提高。