摘要

提出了一种基于同级属性的重复记录检测方法.首先给出了同级属性的判断方式,然后通过查找数据集中的同级属性,来缩减数据集中需要计算的属性个数,提升相似重复记录检测的效率.实验结果表明,受同级属性在数据集中所占比例的影响,该方法能够不同程度的提高相似重复记录检测的效率.

  • 出版日期2014
  • 单位周口师范学院

全文