摘要

【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据进行细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出数据预处理模型。【局限】语料规模有限,且暂未考虑对语料中图表内容的预处理。【结论】数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。