随机森林在电信行业客户流失预测中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:TemplarLee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通讯工具的日益普及,电信行业之间争取客户、扩大市场份额的竞争日益激烈。按照最新电信行业成本结构核算,流失一个已有客户的代价是发展一个新客户所带来利润的5倍。因此在日趋饱和的客户市场中,如何预测客户的流失成为工作的重中之重。电信行业的数据具有海量且随时间递增的特点,而随机森林(RF,RandomForest)能有效地处理大数据集,且具有容噪性较好的特点。因此,本课题将其引入福建移动某地区分公司的客户流失预测中。本文首先利用随机森林算法建立电信行业客户流失预测的初步模型。在原始数据预处理方面,我们利用RF算法定义的异常样本度量尺度来检测异常样本,并通过和其他两种主流异常样本检测方法的对比,来说明随机森林提供的异样样本检测方法的优越性。利用这个方法剔除电信行业客户数据中部分明显异常的样本,然后利用RF算法建立初步的流失预测模型,并与移动经营分析系统自身提供的模型进行对比,证明RF算法的良好性能。本文还利用RF提供的用于衡量样本间相似程度的相似性矩阵(proximitymatrix)进行特征映射,进而得到每个样本基于该矩阵的放缩坐标,并用该坐标来近似表示样本集所包含的信息。结合转导推理思想,本文提出了一种基于随机森林坐标放缩的降维转导方法。对于标准数据库的实验表明,这样的降维转导方法简单有效,并且能够较大程度地表达出样本间信息,是一种良好的维归约方法。在此基础上,通过引入基于马氏距离的超椭球K均值聚类(HCkmean-in-RF)算法,我们进一步改进客户流失预测模型的性能。大量的仿真结果表明,改进的流失预测模型具有较好的预测准确率、以及针对预测结果的部分可解释性。新模型的预测结果可以进行解释分析,能针对不同类型的可能流失客户给出相应的挽留措施,从而有望成为电信行业客户流失预测研究领域的一种强有力的备选方案。
其他文献
本文主要针对机器人视觉伺服控制进行了研究,基于当前视觉伺服控制领域的不同问题提出了相关的控制算法,主要包括基于图像雅可比矩阵的视觉控制器、基于单应性矩阵的视觉控制
本文主要研究目标是研究纹织物的设计过程,分析花型设计系统应用软件的功能需求,并基于Delphi7软件平台研制开发花型设计系统应用软件。本文主要的研究内容有以下五个方面:1
研究带乘性噪声随机系统的信号估计方法是信号处理理论的重要内容,本文主要研究带乘性噪声广义系统的信号最优估计算法。以往针对带乘性噪声系统的研究成果,大多是针对非广义
最近几年,工作流技术的研究和应用已引起了研究人员、开发人员和用户的普遍关注。诸如计算机支持的协同工作、无纸办公、表单传递、协作系统和办公自动化这些概念很早就已经
机器人技术是目前发展最为迅速的前沿科技之一,尤其是近几年,各式各样的机器人已经逐渐走进人们的日常生活中,在日常清洁、商场导购、医疗、军工、娱乐等方面都得到了广泛的
随着蓄电池技术水平的不断进步,与之相适应的隔板也在不断地发展变化。隔板作为铅酸蓄电池的重要组成部分,其厚度的均匀性对电池容量的均匀性有着重要的影响。而国内生产的隔
随着我国节能减排工作的不断深入,供热体制改革也成为了其中的焦点之一。实施供热计量收费是供热体制改革的重要内容。热量计量收费是其中重要的组成部分。现有的热量计量方式中的主要设备是户用热量表和热分配表。热量表都需要使用流量计,在我国的供暖系统的水质比较差的情况下容易导致流量计损坏并产生计量误差。传统的热分配表虽然经济、易安装,但是由于抄表和计量精度的问题在我国没有得到大规模应用。因此能否找到新的分配计
发展风力发电,不仅可以节约常规能源,而且有利于环保,是改善能源结构,减少环境污染的有效途径之一,可带来直接的经济效益、社会效益和环境效益。本文介绍了国内外各种大型风力发电机组的研究发展现状,在目前的恒速、变速两种机型上,确定了变速恒频风力发电机型的结构形式。风力发电技术的创新必须要依赖于实验研究,在不具备风场环境的实验室内,如何进行风力发电技术的研究就成了急需解决的问题。本文首次提出了风力发电机组
基于三维激光雷达传感器的环境感知技术是当前无人地面自主车(UGV)最主要的环境感知手段。在全球最先进的UGV平台中其都占据最主要的位置,这也预示着无人驾驶在未来的发展方
无人机在建筑物内等对通讯信号有屏蔽作用的环境中飞行时,由于无法获取GPS信号,导致无人机无法直接获取自身定位信息。此外,复杂的室内环境对无人机飞行安全也造成威胁。为解