摘要

Map Reduce对于大数据来说是主要的并行计算模型,理想情况下,Map Reduce系统要在机器之间实现高度的负载均衡,并且最小化空间使用、CPU和I/O时间和每个机器上的网络传输。本文提出最小算法的概念,也就是算法能保证同一时间在多个方面的最好并行化,对于一组基本数据库问题来说,我们说明了最小算法的存在,通过实验我们证明了良好的性能。

全文