论文部分内容阅读
无论是金融行业,还是电信行业,日益激烈的竞争使企业认识到客户是他们真正的资产,主要工作也都是围绕保留现有客户和发展新客户展开,营销方式也从大众化营销转为通过差异化、一对一营销来实现客户满意和公司获利的双赢,而差异化、一对一营销的关键就是有效的客户细分。客户细分的关键问题就是找出客户的特征,通过一些统计分析方法可以将客户隐藏在数据中的特征挖掘出来,从而进行分类。传统意义上,客户细分往往根据客户的一维属性来进行,如金融行业根据客户资产多少,可以将客户分为高、中、低端客户,该细分方法最大的优点是简单,可以方便地根据营销资源预算,取舍营销活动中的目标群体,在实践中简便易行。但是,随着技术的进步与客户需求的日趋多样化,以及企业产品的不断创新,传统的客户细分方法显现出了明显的缺点,即使同是高端客户,客户对同一产品或服务的需求也存在着明显差别,客户对产品或服务的要求日趋理性和严格,这种传统的基于一维的客户细分在实践中的应用显得力不从心。需要一种新的细分方法,能够实现:客观反映客户分组内在的特性;综合反映客户多方面的特征;有利于营销人员更加深入细致地了解客户特征;便于实现对客户行为变化的动态跟踪。这就需要用几十个,甚至上百个变量从而对客户进行更为精确的描述,在此基础上对客户进行更为精确的细分,因而,用于解决多变量的、大数据量的客户细分的数据挖掘技术也就应运而生了。客户细分通常用聚类分析方法来实现,其中K-Means算法是实践中最为常用的数据挖掘算法之一,在处理大数据量方面有绝对优势,而且可以取得较好的效果。在客户细分中,围绕K-Means聚类,如何依据通用的数据挖掘方法论,有针对性地将K-Means应用于客户数据建模中,对这些问题的实证研究在国内尚不多见。因此,从数据挖掘建模的角度,对用K-Means算法对客户进行聚类的问题进行理论分析和实证研究,具有一定的现实意义。本文第一章主要阐述客户细分的研究背景,并说明研究的动机与目的以及本文研究的步骤。本文第二章对实现客户细分的相关技术理论进行了总结和回顾。利用数据挖掘方法进行客户细分一个关键的问题就是客户细分方法论,在参阅大量国内外理论研究和实践文献的基础上,归纳总结了客户细分方法论,作为后续研究的基础。客户细分通常用聚类分析方法来实现,在阐述了聚类分析相关概念如距离、数据矩阵、变量标准化等基础上,重点分析了K-Means聚类的优点和缺点。K-Means聚类是一种优化聚类算法,运算速度快,适宜处理大数据,但是聚类结果与变量的量纲、异常值的处理方式、变量的维度、观测的顺序以及K个初始凝聚点的选择等都有很大的关系,本章着重对影响K-Means聚类结果的因素尤其是初始凝聚点的选择方法进行了理论上的分析和总结,也对K-Means聚类在实际中应用状况进行了文献回顾和探讨。聚类结果对实际是否有意义,需要对结果从技术和业务两个方面进行评估,本章对聚类结果好坏的评价标准进行了探讨。K-Means算法对高维数据的聚类效果较差,本文引进用主成分分析方法对高维数据进行降维。本文第三章,实证分析架构设计,也就是本论文实证研究方法。CRISP-DM(Cross-Industry Standard Process for Data Mining)是公认的、较有影响的数据挖掘方法论之一。SEMMA是SAS公司对其数据挖掘软件Enterprise Miner提出来的一种对数据挖掘实施核心过程的描述。本文在研究CRISP-DM以及SAS SEMMA的基础上,结合实际情况设计本研究的实证分析流程,探索利用K-Means聚类进行客户细分的一般数据挖掘流程和方法。本文第四章在某银行客户数据的基础上,借助SAS/STAT、EM所提供的统计分析和数据挖掘方法,围绕认识和理解客户的目标,主要利用K-Means算法对客户数据进行实证分析,探索K-Means聚类用于客户细分的主要过程和一般分析方法。本章共对比了实践中比较常用的八种选择初始凝聚点的方法,对他们的聚类结果进行了对比分析,并给出方法实现的SAS代码。这八种方法共分为两种类别:合成初始凝聚点的方法;实际观测点作为初始凝聚点的方法。前者如用初始聚类的质心作为聚类的初始凝聚点(Random centriods)、爬行中点法(Scrambled midpoint)、爬行中位数法(Scrambled median)、非爬行中点法(Unscrambled midpoint),后者如利用SAS默认的两种限制凝聚点替代的方法进行种子选择(记为Replace full)、完全随机法(Random)、拆分法(Breakup)、对每个观测的所有变量值求和(Feature Value Sums)。通过分析证实,合成初始凝聚点聚类结果整体上要优于实际观测点作为初始凝聚点,因为合成初始凝聚点的代表性比实际的观测点要高;在聚类个数K相等的情况下,任何一种选择初始凝聚点的方法,随着试验次数的增加,所有试验次数中误差平方和的最小值越来越小,类内的同质性越来越大,说明用K-Means算法进行聚类,同一方法改变初始凝聚点组合多次运行,并取最优结果的必要性。为了验证K-Means算法聚类的有效性,本文用神经网络方法SOM(Self-Organized Map)对同样的客户数据进行聚类,结果发现两种模型的一致性很高,说明K-Means聚类结果是稳定的、有效的。并用判别分析方法进一步评估了分群的稳定性。最后对细分结果解释和模型部署以及模型应用方面应注意的问题进行了简单阐述。本文第五章为研究结论。通过实证分析发现,用K-Means算法对客户进行聚类需要重复多次运行以取得较为理想的结果。由于数据挖掘的实践性较强,很多具体的问题需要实践中去总结,比如对客户进行聚类,究竟利用过去三个月、六个月还是十二个月的数据并没有理论做支撑,主要还得看细分的效果。本文在最后指出了本研究的贡献和不足,并给出了用K-Means算法进行客户细分后续研究的方向。本文的主要贡献及创新之处在于:1)从写作思路上来看。近年来,数据挖掘综述方面的文章比较多,但是写数据挖掘具体实施的实证研究论文不多见,是本研究的一个有益尝试;目前利用K-Means算法进行聚类实证研究的文章,大多对如何利用K-Means分析的不够深入,也没有K-Means算法进行实证分析的详细过程,对细分后如何解释类和导出应用策略研究的较多,也就是重“业务分析”轻“理论技术”,但是,运用得当的技术可以使细分后的群体同质性更高,也更利于结果的解释,因此本文走的是重“技术思路”轻“业务分析”的路线,用实际数据来探索利用K-Means算法进行客户细分的数据挖掘流程。2)从方法处理的角度来看。基于SAS的K-Means聚类实证研究不多,本文给出了利用SAS进行K-Means聚类,选择初始凝聚点常用的八种方法的SAS代码,有一定的实践参考价值;用SAS/EM的神经网络方法(Self-Organized Map)和判别分析方法对K-Means聚类所得到的结果进行验证,说明K-Means聚类结果的有效性和稳定性;3)从K-Means方法的应用理念角度来看。国内的实证研究文章大多数提到了K-Means是一种局部最优算法,但是并没有指出在现有可利用的工具软件下,如何改善局部最优的困境。本文经过分析指出,对于K-Means聚类结果的技术评价不以算法收敛为准则,而是取通过选取不同初始凝聚点组合多次运行所达到的最小类内残差平方和(SSE)所对应的那个聚类结果为最终结果,可以有效地改善局部最优的状况;K-Means聚类的结果与初始凝聚点选取有很大的关系,本文首次提出无论哪种选择初始凝聚点的方法,只要选择多种初始凝聚点组合方案进行实验,均可以取得较为理想的结果,而且为改善局部最优的状况必须选择不同的初始凝聚点组合进行多次聚类。