摘要

本发明公开了一种基于映射归约的分布式数据处理方法,其步骤包括:1、对磁盘中的数据进行分片处理,2、在所设置的缓冲区内部,对第一步的处理结果再次进行数据处理,3、通过循环处理,对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升运行效率。