论文部分内容阅读
随着经济的快速发展,企业之间的竞争越发激烈,在业务多元化、市场饱和化以及经济全球化的背景下,吸引新客户的成本愈发高昂,防止客户的流失能够有效地提高企业的利润。作为以客户为导向的保留策略中不可缺少的一部分,如何精准地识别那些具有高度流失概率的客户,具有至关重要的意义。目前,越来越多的企业开始意识到保留现有客户的重要性,提高针对客户流失的早期预警能力也成为了企业发展的重点。通过客户流失预测系统,企业能够及时制定相关策略,来提高客户满意度并防止客户的流失。然而,由于客户历史数据存在复杂度高、冗余度高以及维度高的特点,如何构建预测模型成为了数据挖掘领域中一个重要的课题。本文提出了两种基于多层感知机的预测算法与一种基于客户聚类的预测算法,主要的研究成果如下:(1)提出了一种基于堆叠自编码器的多层感知机预测算法。客户历史数据中往往存在大量离散特征,例如“性别”、“职业”与“国籍”等,预测模型无法直接处理这些特征,必须通过one-hot编码将其转换成二元向量,才能输入预测模型,但这种编码方式存在两个弊端:1)产生了大量的冗余信息;2)大幅提高了特征维度。针对这两个弊端,本算法首先使用堆叠自编码器对one-hot向量进行压缩处理,通过编码器层层的非线性变换来生成隐式的特征融合向量,新的特征向量既消除了冗余信息,也降低了特征维度。然后连接连续型特征向量与特征融合向量,输入多层感知机并构造交叉熵损失函数。最后,使用ADAM优化算法同时迭代训练多层感知机与堆叠自编码器。与多种预测算法对比,本算法在公开数据集上取得了较好的预测表现。(2)提出了一种基于实体嵌入与因子分解机的多层感知机预测算法。该算法能够解决客户信息冗余和传统多层感知机无法生成高阶特征向量的问题。首先,为了消除one-hot编码带来的信息冗余问题,使用实体嵌入分块处理离散特征形成的one-hot向量,并连接生成的嵌入向量,其中的每一块嵌入向量都是原有离散特征的低维表征。然后,使用多尺度滑动窗口扫描原始特征向量,并同时使用因子分解机生成高阶的隐式特征向量,在实验中通过改变多项式回归的高次项来控制特征向量的阶数。最后,连接连续型特征向量、嵌入向量与高阶特征向量,输入多层感知机并构造交叉熵损失函数,使用ADAM优化算法进行迭代训练。实验结果表明,本算法在公开数据集上的预测精度高于其它算法。(3)提出了一种基于客户聚类的混合预测算法。该算法立足于同一群体内的客户往往拥有相似的特质、行为偏好与关注点这一特性,并分为三个阶段。在第一个阶段中,由于原有的客户特征既复杂又冗余,所以使用多层感知机训练预测模型,依靠神经网络的非线性表征能力生成新的特征向量来替代原始的客户特征。在第二个阶段中,首先使用k-means算法进行单个特征的聚类,然后使用聚类中心替换原有特征,最后再进行多特征的客户聚类,其中类别个数均由轮廓系数确定。在第三个阶段中,针对不同客户群体的特点来构建不同的GBDT预测模型。在公开数据集上的实验结果证明了该框架有效地提升了GBDT的预测精度,并好于多种对比算法。