摘要

随着互联网及大数据时代的到来,新数据的产生以指数级的速度增长,而这大量的数据中,又以格式不确定的非结构化数据为主。主流的关系型数据库技术很难驾驭非结构化数据,本文提出基于Hadoop分布式框架的非结构化数据管理体系。采用HBase数据库技术处理多格式的大量小文件,利用Lucene检索引擎设计全文检索策略,并在此基础上搭建分层体系架构。

  • 出版日期2017
  • 单位大庆油田勘探开发研究院

全文