摘要

  XML已经成为Web上数据表达和数据交换的事实标准, Hadoop已成为云计算和大数据处理典型支撑框架之一,基于HadoopMapReduce来实现XML查询处理十分必要。为了实现基于MapReduce的XML查询处理,研究首先实现了区间编码,前缀编码和层次编码等三种不同的XML数据编码方式,以此为基础来研究和实现基于MapReduce的XML结构连接处理,研究还为查询处理建立了代价模型,通过代价估算获得优化的查询计划树。最后开展了XML查询处理实验评估,结果表明相对其他两种XML编码方式,区间编码方式下实现的查询处理速度较快,基于代价估算的优化方法能进一步有效地提高XML查询处理性能。