论文部分内容阅读
客户频繁流失是电信企业发展中所面临的一个严重问题,随着国外电信运营商的涌入,这个问题必将进一步恶化。为减少或避免客户的流失,本文给出了一种行之有效的解决方案:利用数据挖掘知识建立客户流失预测模型,用此模型挖掘出将要离网的客户,再根据这些客户的通话特征和业务喜好采取针对性的措施加以挽留。本文围绕客户流失预测模型的四个步骤进行了分析:问题的定义,数据预处理,建立模型,模型优化与评估。 问题的定义中给出了要解决的问题和要实现的目标,数据预处理从如何选择样本数据、消除噪音、数据转换、特别是属性的选取方面进行了阐述。在属性选取时根据Fisher函数把对分类影响小的属性删除,由Pearson’s Correlation Coefficient将相关联的属性合并,用Singular Value Decomposition减少属性向量空间的维度。 建模是预测的结果是否有应用价值的关键所在,本文从客户分群和离网预测两大方面进行研究。客户分群作为预测的基础为分类器提供有共同特征的用户群体,使得预测分析可以在不同的群体上进行。为了减少调整簇中心所带来的计算代价,本文给出了一种改进的k-平均算法来得到具有相似特征的用户群体。离网预测采用了决策树分类器,本文在描述决策树算法中所涉及到的建树、代价计算、剪枝等问题之后,给出了在建树中和建树后分别加入限制条件的修剪算法。建树阶段设置大小限制的修剪算法是通过计算出不完整树的最小代价得到优化树的代价上限,根据此上限以及计算出的节点的实际代价来修剪节点的。在预测模型中应用了在建树阶段加入大小限制条件的修剪算法。另外,还解释了决策树分类时如何寻找最佳分裂指标和确定分裂点的问题。分裂指标采用了gini index计算方法,确定分裂点时使用了CAIM算法对连续型属性进行了离散化处理。模型优化采取了交叉验证和boosting技术,最后给出了预测分析的结果。