摘要

针对在传统的客户流失预测数据预处理中,使用one-hot编码处理离散属性导致数据维度增加及数据过于稀疏的问题,提出了两种基于多层感知机的改进后的客户流失预测模型。其主要思想是分别使用堆叠自编码器和实体嵌入两种方法对多层感知机进行改进,通过将离散属性的高维编码数据向低维空间映射,有效地减少了one-hot编码产生的稀疏数据,增加了离散属性值之间的关联度。在对两份公开的数据集进行交叉验证后的实验结果表明,改进后的模型既有效地提高了预测的准确度,又维持了传统多层感知机模型在并行化计算方面的优势。