摘要

针对电商网站中的大量非结构化、无标注的用户评论文本,运用两视图半监督学习方法对其进行分类,识别出涉及产品质量问题的内容,从而挖掘出其中隐含的产品质量缺陷与隐患。综合考虑词汇、情感、领域等多方面特征,构建文本特征视图和非文本特征视图,采用Co-training协同训练算法,依据是否涉及质量问题对评论进行分类。以电热水壶为例,爬取电商网站的评论数据进行实证分析。结果显示,本文方法的分类F1值和AUC值分别为82.18%和86.24%,相比于单视图监督学习分类器具有显著提升。