摘要
大数据主要有四个典型特征:海量、多样性、高速、易变。连接算法优化是大数据热点问题之一,2010年以来,数据库顶级会议ICDE,Sigmod和VLDB每年都有专门的文章研究基于Map Reduce的连接算法优化。依据连接条件主要可以分为等值连接法、数据倾斜时连接法和任意连接法,分析三种数据连接方法,介绍三种连接算法设计和优化方式,并针对基于Bloom Filter等值连接设计和优化做了和二阶段法和三阶段法的实验分析。两表等值连接,数据量较大时,采用基于Bloom Filter等值连接方式会在一定范围减少算法执行时间,提高数据连接效率。
- 出版日期2015
- 单位九江学院; 九江供电公司