论文部分内容阅读
在大数据时代,谁能够吸取隐藏在这些大数据后面的有用知识,并把这些隐性知识利用起来,谁就有机会率先发现商机。数据挖掘,就是这样一门技术,它能够从海量数据中提取人们感兴趣的知识。近十几年来,出现了许多数据挖掘的新方法,如神经网络、文本挖掘、支持向量机等,特别是最近几年,数据挖掘基本概念和方法都已成型,并逐渐得到人们的认可。数据挖掘研究正在向更深层次的方向发展!随着电信改革的不断深入,近几年通信行业在我国蓬勃发展,其产业结构链变得越来越复杂,很多环节都影响了客户行为,从而也赋予了客户流失新的内涵,使得客户挽留与客户保有难度加大。于是,国内很多电信运营商开始寻找新的方法,预测电信客户的流失问题。基于数据挖掘技术的电信客户流失预测研究便开始在国内发展起来!本文根据客户价值与客户生命周期理论,借助H市移动公司的业务数据,采用了Logistic回归和决策树的数据挖掘算法,遵循CRISP-DM标准数据建模准则,逐步按照商业理解、数据理解、数据准备、模型构建、模型评估与模型部署的步骤,对移动客户流失问题做了预测研究,并为移动客户的流失管理提供了战略性策略。全文共分为六个章节。第一章绪论。对本文的研究背景、研究现状、主要研究内容、研究方法和创新点进行了描述。第二章数据挖掘概述。对数据挖掘的内涵、数据挖掘工具、挖掘算法和建模方法论进行了总结,尤其是详细介绍了决策树和Logistic回归挖掘算法;在梳理CRISP-DM数据挖掘方法论的基础上,详细讲解了使用Logistic回归建模的全过程。第三章移动客户流失相关理论分析。首先对移动客户流失的概念进行了界定,确定了本文研究的对象;然后介绍了与客户流失相关的理论,即客户价值理论和客户关系生命周期理论;最后定性的提出了影响移动客户流失的原因,并分类做了阐述。第四章移动客户流失实证分析。采用H市移动公司的业务数据,使用Logistic回归和决策树建立了移动客户流失预测模型,按照业务理解、数据准备、数据探索、变量选择、模型构建与选择、模型评估和模型结果分析的数据挖掘流程,对移动客户流失问题做了预测研究。其中在变量选择时,提出了使用WOE值和Ⅳ值筛选变量的新方法,通过建立的3个模型效果对比分析,可以看出用WOE值能够对Logistic回归模型的输入变量进行离散化处理,并且也可以用Ⅳ值来筛选预测变量。另外,3个模型对比分析,通过查看它们的提升图,可以得出两个结论:第一,使用WOE值离散化变量,能够提升Logistic回归模型效果;第二,使用Logistic回归比使用决策树构建移动客户流失预测模型的效果更好。第五章移动客户流失管理策略。根据第三章的客户价值理论和客户生命周期理论,结合第四章实证分析得到的客户流失预测模型结果,创新性地将潜在流失客户分成三类,即考察期低价值客户、稳定期低价值客户和退化期高价值客户,并分别制定了客户挽留策略和营销策略。第六章对全文进行总结,并为以后的研究提供了建议。本文的创新之处主要有以下两点:第一,由本研究的客户流失文献综述可知,大部分的学者在做客户流失预测分析时,只是利用了一种数据挖掘算法或者没有实证分析,缺乏使用多种数据挖掘算法建模之间的对比分析。本文使用了Logistic回归和决策树两种数据挖掘算法对比研究移动客户流失问题。通过模型的对比分析,更能说明模型的提升效果。第二,在很多使用数据挖掘技术预测客户流失的研究中,数据挖掘建模中的变量选择过程讲解不详细透彻。本文在研究时,采用了基于区分度、变量的WOE值和Ⅳ值、相关性的方法来共同筛选自变量,使得选择输入变量有据可依。