论文部分内容阅读
随着电信市场的开放,客户选择电信业务及电信企业的余地越来越大,电信企业之间对客户的争夺也越来越激烈。大量低忠诚度客户转网或变更业务,即使采取相应的预防措施,也不能有效地遏制大规模客户流失的现象。另一方面,电信客户近几年高速增长,形成庞大、需求差异很大的客户群体。同时,由于电信技术的发展和创新不断生成各种新型业务。如何细分市场和客户群,将最合适的业务推销给最需要的客户,实现业务和客户的最佳匹配是电信企业的重要课题。
电信企业逐渐意识到以客户为中心经营的必要性,开始从业务驱动向客户驱动转化。通过分析业务支撑系统中海量的数据,对市场、客户进行挖掘分析,实现精细化营销。电信行业各类业务系统的建设,积累了海量的数据,这些数据不仅是历史记录的呈现,也蕴涵了客户的消费模式,为客户分析提供了丰富的素材,也为数据挖掘系统提供了宽广的用武之地。
本文介绍了适于不完全电信数据的若干数据挖掘技术和方法,以南京市网通用户部分通话记录为实验数据,系统地研究了基于不完全电信数据的客户细分、交叉销售和客户流失等挖掘方法,并在研究多种数据挖掘评价方法的基础上对其中基于损失函数的标准展开了深入研究。
客户细分选择了高效的k-means算法,并做了数据预处理,以最大程度的提高运算效率。结合行业的具体情况,对客户细分的实验结果作了详细的解释,并给出了积极的业务建议。
交叉销售也是电信行业的一个重要挖掘主题,从大量前人的研究成果分析来看,关联规则最适合于解决交叉销售的问题。本文基于经典的Apriori算法,并在其基础上做了“预剪枝”处理,保证了算法的简洁性也提高了算法效率。实验数据证明了改进后的Apriori算法的可行性和效率上的改善,并对实验结果做出了相应的解释和业务建议。
本文分析了客户流失分类、比率与主要原因,提出了一种客户流失分析方法,以C4.5决策树作为客户流失分析的主要手段。
本文介绍了多种数据挖掘评价方法,并对其中基于损失函数的标准展开了深入研究。提出了一种考虑收益损失的混淆矩阵(扩展的混淆矩阵),说明了如何以利润最大化为目标来判断具体的挖掘模型。另外,还介绍了ROC图,具体分析了如何用ROC图来评价分类模型。