基于多层感知机与客户聚类的客户流失预测算法研究

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:zybp821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的快速发展,企业之间的竞争越发激烈,在业务多元化、市场饱和化以及经济全球化的背景下,吸引新客户的成本愈发高昂,防止客户的流失能够有效地提高企业的利润。作为以客户为导向的保留策略中不可缺少的一部分,如何精准地识别那些具有高度流失概率的客户,具有至关重要的意义。目前,越来越多的企业开始意识到保留现有客户的重要性,提高针对客户流失的早期预警能力也成为了企业发展的重点。通过客户流失预测系统,企业能够及时制定相关策略,来提高客户满意度并防止客户的流失。然而,由于客户历史数据存在复杂度高、冗余度高以及维度高的特点,如何构建预测模型成为了数据挖掘领域中一个重要的课题。本文提出了两种基于多层感知机的预测算法与一种基于客户聚类的预测算法,主要的研究成果如下:(1)提出了一种基于堆叠自编码器的多层感知机预测算法。客户历史数据中往往存在大量离散特征,例如“性别”、“职业”与“国籍”等,预测模型无法直接处理这些特征,必须通过one-hot编码将其转换成二元向量,才能输入预测模型,但这种编码方式存在两个弊端:1)产生了大量的冗余信息;2)大幅提高了特征维度。针对这两个弊端,本算法首先使用堆叠自编码器对one-hot向量进行压缩处理,通过编码器层层的非线性变换来生成隐式的特征融合向量,新的特征向量既消除了冗余信息,也降低了特征维度。然后连接连续型特征向量与特征融合向量,输入多层感知机并构造交叉熵损失函数。最后,使用ADAM优化算法同时迭代训练多层感知机与堆叠自编码器。与多种预测算法对比,本算法在公开数据集上取得了较好的预测表现。(2)提出了一种基于实体嵌入与因子分解机的多层感知机预测算法。该算法能够解决客户信息冗余和传统多层感知机无法生成高阶特征向量的问题。首先,为了消除one-hot编码带来的信息冗余问题,使用实体嵌入分块处理离散特征形成的one-hot向量,并连接生成的嵌入向量,其中的每一块嵌入向量都是原有离散特征的低维表征。然后,使用多尺度滑动窗口扫描原始特征向量,并同时使用因子分解机生成高阶的隐式特征向量,在实验中通过改变多项式回归的高次项来控制特征向量的阶数。最后,连接连续型特征向量、嵌入向量与高阶特征向量,输入多层感知机并构造交叉熵损失函数,使用ADAM优化算法进行迭代训练。实验结果表明,本算法在公开数据集上的预测精度高于其它算法。(3)提出了一种基于客户聚类的混合预测算法。该算法立足于同一群体内的客户往往拥有相似的特质、行为偏好与关注点这一特性,并分为三个阶段。在第一个阶段中,由于原有的客户特征既复杂又冗余,所以使用多层感知机训练预测模型,依靠神经网络的非线性表征能力生成新的特征向量来替代原始的客户特征。在第二个阶段中,首先使用k-means算法进行单个特征的聚类,然后使用聚类中心替换原有特征,最后再进行多特征的客户聚类,其中类别个数均由轮廓系数确定。在第三个阶段中,针对不同客户群体的特点来构建不同的GBDT预测模型。在公开数据集上的实验结果证明了该框架有效地提升了GBDT的预测精度,并好于多种对比算法。
其他文献
农产品安全问题备受关注,农产品生产的重要主体是农户,农户不规范的生产行为是导致农产品安全问题产生的重要源头。目前在地理标志地区,农产品质量普遍较高,农户安全生产表现
随着在线教育平台的迅速发展,数据挖掘技术在在线教育平台中得到了广泛应用。教育数据挖掘已然成为一个新兴的研究方向,但是如今教育数据挖掘的研究大都针对大型的教育平台,对于程序在线评测系统的研究较少。随着在线评测系统的广泛应用,使用人数的日积月累,题目和课程的不断完善,数据量更是与日俱增。在庞大而杂乱的数据中挖掘出有价值的信息具有重要意义,不仅可以协助教学者改善教学方法,还可以帮助学习者充分了解自身的学
光在海洋、大气湍流以及生物组织等不均匀介质中传输时,介质中粒子导致光发生散射而不能以直线传播,在介质内部经历多次散射并传输扩散后,光携带的信息也会丢失。波前整形技
企业流程库中日益增长的复杂的业务流程,为组织人员管理流程带来了困难。分析不同的流程的共同区域并确定流程的相似性,不仅为企业进行流程改进、流程合并以及提高流程复用性提供了理论基础,而且降低了管理业务流程的复杂度。已有的流程相似性研究中大部分是基于控制流的计算方法,忽视了对业务数据的考虑,而基于Artifact的流程将流程执行过程中的业务数据放在核心地位。本文针对已有流程相似度研究方法中对业务数据考虑
分布式光伏发电随着化石能源的逐步衰竭正逐渐成为主流的发电方式。目前,我国对于光伏标杆电价的提高与补偿电价规则的制订标志着我国对于分布式发电的重视程度正逐年提高。
近年来中国经济飞速发展,为旅游、留学等目的出境的中国公民逐渐增多。走出国门已发展成为普通民众生活的常态。但是,走向海外的中国公民面对的不仅是五彩缤纷的大千世界,也有种种安全风险。地区局势不稳定、灾害多发以及意外事件等多种因素的时刻威胁着身处海外的同胞们的安全。复杂多变的海外安全形势,越发凸显出中国在应对公民安全风险问题时存在的不足。完善相关法律制度,健全风险预防机制,协调运用多种方式加强海外公民安
随着指纹识别技术的广泛应用,越来越多的不法分子利用伪造指纹对识别系统进行攻击,非法获取用户权限,对合法用户的隐私、信息、财产等造成了严重的威胁。为有效解决上述问题,本论文将研究问题聚焦到指纹活体检测问题,进一步为降低硬件成本并增加部署灵活性,我们侧重基于软件的指纹活体检测方案,即用图像处理的相关算法直接从采集的指纹图像中提取活性细节信息用于真假指纹的鉴别,无需添加额外硬件,只需更新原有系统的软件架
随着通信、控制、传感等技术的快速发展,网络化控制系统(Networked Control System,NCS)因具有较高的灵活性及可靠性,在工业自动化、电网、交通等基础设施中发挥重要作用。然
基于Qian大气强迫数据和CFSR、FLUXNET、GLEAM等再分析资料,论文首先评估了CLM4.5对蒸散及其各组分的模拟能力,并与CLM4.0进行了对比;然后通过参数估计和物理结构这两方面改
目前,国内彩码的研究应用尚处于起步阶段。彩码作为一种新型识别码相比于传统二维码,能够较好地实现远距离、多码批量识别等功能。手机、智能监视系统等目标检测设备,往往需