论文部分内容阅读
针对当前电信行业严重的客户流失问题,文章在以前研究的基础上,以构建稳定性好、精确度高的客户流失预测模型为目标,基于C5.0、Neural Net、Logistic和SVM四种基本算法,从以下四个方面做了深入研究,并得到一套适合于省级电信运营企业的客户流失预测解决方案。采用编码方法生成衍生变量提升客户流失预测模型的预测效果。在以前的研究中,流失预测模型的预测变量集一般都直接来自于客户数据库字段或经过简单计算得到,这些变量不能跟踪客户消费行为变化对客户流失倾向的影响。鉴于此,本文采用编码的方法跟踪客户消费行为的变化,并生成衍生变量作为预测变量集的部分变量,通过与不含这些衍生变量的变量集数据进行对比研究,结果表明:含有这些衍生变量的变量集的预测效果更好。提出基于不同细分标准的客户流失预测混合模型构建方法。由于省级电信运营企业客户数达到千万级,各个地区的营销策略有很大差异,并且客户的品牌、消费额、网龄等都有很大的不同。由于同类客户往往具有相同的消费倾向,有必要选取不同的细分变量将客户分成不同的客户子集,从而构建客户流失预测混合模型。通过实证结果表明,以地区为客户细分变量的混合模型预测效果最佳,以账单为客户细分变量的混合模型预测效果其次,以网龄和品牌为客户细分变量的混合模型预测效果较差的结论。提出能够提高客户流失预测效果的最优模型投票(VBBA)方法。对于电信客户流失预测问题,由于流失客户相对于非流失客户来说比例很小,这种比例的失衡通常会污染模型,导致模型预测效果大幅下降。本文提出采用最优模型投票方法来解决此问题,通过实证研究结果表明:最优模型投票方法优于任何单一模型的预测效果,是一种稳定可靠的提升客户流失预测效果的方法。通过对准确率、命中率、收益图、提升图和ROC曲线等多种分类评估方法的比较分析和实证研究,结果表明:ROC曲线用于多个电信客户流失预测模型的比较评估时,具有图形直观、综合性强和评估结果唯一的优点。因此,建议采用ROC曲线进行电信客户流失预测模型的评估。