论文部分内容阅读
经济全球化和多样化使得企业从“以产品为中心”向“以客户为中心”转变,客户关系管理(CRM)成为企业竞争力的一个重要方面。利用数据挖掘技术分析这种海量的CRM数据,可以挖掘出有关客户的潜在的有用的知识,帮助企业了解现有客户的购买习惯,为客户提供个性化的、更能满足其需求的服务。同时,基于数据挖掘的客户关系管理,有利于企业发现、吸引和拓展潜在客户,从而最大化客户对企业的商业利润。因此,研究数据挖掘技术在CRM中的应用,具有重要的理论指导和实际应用价值。分类和预测是数据挖掘领域中的一个重要研究课题,很多相关的研究结果已经用于客户关系管理中。本文基于法国电信运营商Orange公司(KDDCUP2009数据集)提供的数据集,建立数据挖掘流程,在数据预处理后实现和改进了三种分类算法,并提出四种集成分类器算法,完成对客户的购买欲、忠诚度和增值服务的分类和预测。最后,设计实验评价各种分类器的性能,并对实验结果进行比较分析。本文的主要工作包括:数据预处理:数据预处理是数据挖掘工作的重点,数据预处理的好坏,对数据挖掘的最终效果有着直接的影响。因此本文中的数据预处理分为两步,初步预处理和二次预处理。初步预处理主要包括:数据观察,数据清理,离散化处理和属性特征选择。而二次预处理或深层预处理,则依赖于具体的分类模型。分类模型的构建:针对Orange公司提供的客户数据集,本文首先探索了多层感知分类器(MLP:Multilayer perceptrons)的算法实现。而后应用经典的支持向量积(SVM: Support Vector Machine)算法构建第二个分类器。最后,基于逻辑模型树(LMT:Logistic Model Tree)构建第三个分类器。为了提高分类性能,我们设计实现了四个集成分类器,分别是:基于后验概率的集成分类器、基于投票的集成分类器、基于后验概率的加权集成分类器和基于投票的加权集成分类器。实验设计及结果分析:本文首先给出了整体实验框架,而后通过对三种经典分类算法的实验结果,以及最后集成分类器的实验结果比较,本文应用ROC曲线下面积(Area Under the Curve, AUC)作为评价指标,对三种经典分类器实验结果和集成分类器进行分析。对于单个分类器来说,改进的逻辑模型树分类器的分类效果明显好于多层感知器和支持向量机。对于集成分类器来说,基于后验概率的加权集成分类器和基于投票的加权集成分类器要更好一些。本文把数据挖掘理论和Orange公司提供的客户数据集相结合,通过对数据挖掘流程的实现,最终完成了对客户购买欲、忠诚度和增值服务的预测。实验结果表明,本文所实现的经典分类预测模型和集成分类器模型是科学有效,并且基本符合应用实际。因此,本文所提出的模型在客户关系管理中具有很重要的意义。