摘要

当今时代,信息技术为人类步入智能社会开启了大门,同时也带动了互联网、物联网、电子商务、现代物流和网络金融等现代服务业的发展。由于网络信息的广泛使用,使得各种业务数据正以几何级数的形式爆发,其格式、收集、存储、分析和应用等诸多问题有待解决。大数据具有了volume、velocity、variety和variety四个特征。2011年5月,麦肯锡全球研究院发布题为《大数据:创新、竞争和生产力的下一个前沿领域》的报告,正式提出了"大数据"的概念。在大数据时代背景下,应该如何在原有的数据挖掘技术下实现更好的数据处理和应用也称为一个迫切解决的问题。大数据的体量和流量注定传统的数据挖掘算法,尤其是基于单机迭代的实现模式是无法满足大数据所要求的高扩展性和高时效性的。同时大数据的多元异构也需要在数据的抽取、清洗、转换、存储、关联和展现等各个关键环节进行调整。

  • 出版日期2016
  • 单位三江学院