摘要

作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。