大数据连接算法分析

作者:李立现; 屈晓平; 高琴琴
来源:电脑知识与技术, 2015, 11(13): 219-220+229.
DOI:10.14004/j.cnki.ckt.2015.1023

摘要

大数据主要有四个典型特征:海量、多样性、高速、易变。连接算法优化是大数据热点问题之一,2010年以来,数据库顶级会议ICDE,Sigmod和VLDB每年都有专门的文章研究基于Map Reduce的连接算法优化。依据连接条件主要可以分为等值连接法、数据倾斜时连接法和任意连接法,分析三种数据连接方法,介绍三种连接算法设计和优化方式,并针对基于Bloom Filter等值连接设计和优化做了和二阶段法和三阶段法的实验分析。两表等值连接,数据量较大时,采用基于Bloom Filter等值连接方式会在一定范围减少算法执行时间,提高数据连接效率。

全文