摘要

超参数优化问题一直是自动化机器学习研究的重点问题,针对特定的需求建立机器学习模型,需要调整大量的超参数。其中,超参数组合形成了大规模的超参数搜索空间,从而需要大量的运行时间。然而,有效探索大量超参数组合具有一定的挑战,现有的自动化超参数优化方法时间复杂度很高。为此,利用相似数据集的最优超参数区间的历史知识,提出了一种基于数据集元特征的超参数优化方法。首先,使用自动化机器学习系统寻找最优超参数的区间范围,然后对历史数据集元特征采用递归特征消除法进行特征提取作为特征向量,将此特征向量与最优超参数区间的对应关系利用XGBoost算法建立预测模型,并使用该模型预测新数据集的最优超参数区间。对OpenML平台的数据集进行实验,结果表明该方法预测的最优超参数区间的精度达87%。同时,把此预测区间作为自动化机器学习系统的搜索空间范围,在很大程度上缩短了运行时间,且确保一定的性能。