摘要

基于范围的空间文本相似连接是一种重要的操作,在现实生活中具有广泛的应用,例如社交推荐,但是随着数据量的迅猛增长,单机模式不能有效地对大规模的数据执行该操作.基于此,本文研究在MapReduce框架下实现该操作的方法,该方法由两个阶段构成,第一阶段产生文本标签的整体序,第二阶段进行相似连接操作.提出基于M限制矩形的数据划分策略以减少数据的复制规模,既减少了每个节点的计算量,又裁减掉了部分不相似的对象对.提出基于网格的冗余避免策略,避免了相似对象对的重复计算.最后,通过实验验证了本文所提方法的有效性.