摘要

在传统统计分析工具无法直接对原始数据进行建模分析的前提下,利用大数据工具对原始数据进行提取、转换和加载(ETL),再通过统计分析工具对样本数据进行可视化预测分析。本文通过Hadoop分布式集群对广东省部分公交线路岭南通用户2014年5个月的800多万条刷卡数据进行数据清洗,通过样本数据分析了公交客流量以周为周期的波动规律,并结合休息日(节假日、周末)效应,选用多元季节性时间序列模型对日时段客流量进行时间序列建模,最后通过外推预测评估模型,平均误差不超过5%,结论表明该模型适用于公交时段客流量的短时预测。

全文