摘要

所谓"海量数据",一般具有几个特点:首先是数据量很大,目前已经达到TB级甚至PB级;其次是区别于传统的数据结构,海量数据中的数据结构比较复杂,超过80%都是非结构化数据。第三是数据更新快,比如视频监控每秒钟都在进行,微博随时都有人在更新;最后是对数据的随机访问,这些更个人化的数据在存储后被再次访问的时间是不确定的。针对海量数据的这些特点,本文就海量数据处理中的一些策略进行了分析。