摘要

现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。实证分析结果表明,基于此算法抽取样本构建的模型与简单随机抽样方法相比,模型参数估计的均方误差更低,效果更稳定。