摘要

从高维度、大数据量的时空数据中有效选择变量是时空数据领域的重要问题之一,现有的时空数据变量选择的方法在变量选择的过程中未充分考虑时空相关性,时空变量选择阶段与预测阶段分开进行,且往往需要人为设定时空点个数阈值判定变量的取舍,从而无法较为准确的选择对因变量影响最大的变量子集,导致后续预测效果较差。本文针对上述不足,提出了一种基于时空组Lasso与分层贝叶斯时空模型的变量选择方法,称为分层贝叶斯时空组Lasso变量选择模型(Hierarchical Bayesian Spatio-temporal Group Lasso Variable Selection Method,HBST-GLVS),该方法首先利用时空组Lasso进行变量选择,通过引入最大时间滞后和最大空间邻域充分考虑时空相关性,并根据时空数据连续性,将同一时空变量的时空点进行整体惩罚,避免人为设定时空点个数引起局部片面性。然后,利用分层贝叶斯时空模型对变量选择的效果进行验证,将变量选择过程与模型验证过程置于同一框架下进行参数的调整,从而得到最优的变量子集。实验结果表明,与现有方法相比,本文方法在北京空气质量数据集、波特兰交通流数据集上的RMSE(Root Mean Square Error)和MAE(Mean Square Error)可分别降低9.6%~25.7%以及6.6%~15.9%。