摘要

随着互联网发展,用户面临网络流量数据规模大、处理时效要求高的挑战,需解决数据采集、实时处理、存储组织和查询检索中的关键问题,为此,本文提出一种分布式的数据汇聚查询平台,通过半同步半异步模式的分级架构,支持采集超大规模流量数据;利用多分区队列的消息缓存、并行分布式流处理和基于属性划分的数据加载等手段优化组合,实现高效的实时处理;采用基于抽象数据访问驱动的虚分区式数据存储来对异构数据统一管理,具备良好扩展性;通过异步构建的分级索引架构,实现对数据报文的快速检索,最终为用户提供低延迟、高吞吐、快查询的一体化系统.实验证明平台有良好性能和可扩展性,主要环节有数倍以上不同程度的性能提升,并已应用于实际系统.