摘要

随着互联网发展,网上购物已经成为人们越来越多的选择。为了更好实现帮助顾客推荐商品的目的,对原有数据进行特征提取,再用互信息的方法对数据进行特征选择;用改进的EasyEnsemble算法处理类别不平衡的问题,利用集成策略弥补欠采样的缺陷,使样本数据得到充分的利用并且降低了正负样本差造成的影响;最后选择使用软投票的方法将XGBoost和随机森林结合为一个终分类器做预测,并与单一的算法相比,从而得到更好的结果。基于阿里巴巴天池大赛所提供的数据,以查准率P、召回率R和F1值为评价指标,分别与当前热门的机器学习算法进行对比,验证了本文方法的有效性。