大数据挖掘的均匀抽样设计及数值分析

李毅; 米子川

摘要

就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。

出版日期2015
单位山西财经大学

收藏分享被引浏览

更新时间：2019-10-20 23:31

大数据挖掘的均匀抽样设计及数值分析

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友