摘要

针对Kaggle网站贷款数据冗余导致数据分析低效、计算成本高等问题,采用两步子抽样算法抽取样本,构建岭回归模型拟合贷款额,分析贷款额影响因素。实证结果表明,贷款额与资金总额付款、循环账户数量、信用额度等多方面因素相关;相较于简单随机抽样方法,基于两步子抽样方法建立岭回归模型参数估计均方误差降低21.35%,平均标准误降低36.79%,有效提高了数据分析效率和准确性。