论文部分内容阅读
在通信业发达的今天,电话营销的现象早已出现在大街小巷,然而人们对电话营销的接受程度却越来越低,营销结果往往使得营销人员精疲力竭。而本文的研究结果对于商业银行的客户管理,发掘有价值客户,维护客户的忠诚度有重要的理论价值和现实意义。当前随着大数据的突起,使用用数据挖掘技术施行精准营销的领域也越来越多,本文中就提出了利用数据挖掘的方式,以预测出经过电话营销销售银行长期存款的结果,文中收集了国外41188条的银行电话营销数据,分析了与银行客户、产品和社会经济属性相关的150个特征变量,然后通过人为的半自动化选择缩减到21个变量。由于得到的数据集是非平衡数据,只有11.3%条数据是电话销售成功的记录,为了明确非平衡数据集对模型的影响,在对缺失值预处理之后采用了 Chawla提出的SMOTE算法生成了新的平衡数据集,之后比较了利用平衡数据集和非平衡数据集训练模型的效果,发现非平衡数据集得到的模型预测的结果更加偏向于样本中多数的那一类,因此本文使用了平衡数据集进行模型的训练与评估。本文考虑了三个分类模型:Logistic回归模型、决策树和支持向量机,并使用精准度和ROC曲线下AUC的值衡量了分类的效果。其中Logistic回归分类法和决策树拟合模型的解释很容易被人们理解,而且对新的数据还有较好的预测,而支持向量机模型相比较而言则比较复杂,但对线性问题和非线性问题都有较好的学习能力,正是由于这样的复杂性,支持向量机往往能够提供精确的预测,文中经过训练对比确定各模型的参数或结构后,利用测试集数据测得三个模型的精准度分别为47.3%、73.1%和 52.6%,ROC 曲线下 AUC 的值分别为 0.921、0.985 和 0.938。在营销领域,管理者更加希望通过识别具有较高价值的客户,尽量避免在一些低价值的客户身上浪费资源,以此提高投入产出比,那么就希望预测的结果更加准确,而本文中AUC的值相差不大,根据精准度最高的原则,选择决策树C5.0分类算法进行预测。