摘要

对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了Map Reduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。