摘要

随着互联网技术的迅猛发展和大数据时代的来临,面向海量数据的top-k连接查询返回组合得分最大(或最小)的k个连接结果,能够广泛应用到商业模式预测、用户需求分析、商品营销统计等领域.然而,在实际应用中,不同的用户对参与连接的数据表中的某些维度往往会有不同的要求,进而产生了不同的用户偏好.为了选出符合用户偏好的连接结果,需要针对用户偏好对连接后的结果进行筛选.因此,本文针对不同用户在查询时有各自不同偏好的问题,提出了在MapReduce环境下基于用户偏好的top-k连接查询处理方法.首先,在预处理阶段将两表进行连接操作;其次,提出利用skyline技术求解用户偏好的方法,通过分区间支配关系及虚拟最小点的判定,过滤不满足用户偏好的元组;最后,再通过打分函数找到需要的top-k连接查询结果.大量实验表明,本文提出的基于用户偏好的top-k连接查询处理方法能够有效满足用户偏好,具有良好的有效性和扩展性.