K-Means算法在客户细分中的应用研究

被引量 : 0次 | 上传用户:hanson1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是金融行业,还是电信行业,日益激烈的竞争使企业认识到客户是他们真正的资产,主要工作也都是围绕保留现有客户和发展新客户展开,营销方式也从大众化营销转为通过差异化、一对一营销来实现客户满意和公司获利的双赢,而差异化、一对一营销的关键就是有效的客户细分。客户细分的关键问题就是找出客户的特征,通过一些统计分析方法可以将客户隐藏在数据中的特征挖掘出来,从而进行分类。传统意义上,客户细分往往根据客户的一维属性来进行,如金融行业根据客户资产多少,可以将客户分为高、中、低端客户,该细分方法最大的优点是简单,可以方便地根据营销资源预算,取舍营销活动中的目标群体,在实践中简便易行。但是,随着技术的进步与客户需求的日趋多样化,以及企业产品的不断创新,传统的客户细分方法显现出了明显的缺点,即使同是高端客户,客户对同一产品或服务的需求也存在着明显差别,客户对产品或服务的要求日趋理性和严格,这种传统的基于一维的客户细分在实践中的应用显得力不从心。需要一种新的细分方法,能够实现:客观反映客户分组内在的特性;综合反映客户多方面的特征;有利于营销人员更加深入细致地了解客户特征;便于实现对客户行为变化的动态跟踪。这就需要用几十个,甚至上百个变量从而对客户进行更为精确的描述,在此基础上对客户进行更为精确的细分,因而,用于解决多变量的、大数据量的客户细分的数据挖掘技术也就应运而生了。客户细分通常用聚类分析方法来实现,其中K-Means算法是实践中最为常用的数据挖掘算法之一,在处理大数据量方面有绝对优势,而且可以取得较好的效果。在客户细分中,围绕K-Means聚类,如何依据通用的数据挖掘方法论,有针对性地将K-Means应用于客户数据建模中,对这些问题的实证研究在国内尚不多见。因此,从数据挖掘建模的角度,对用K-Means算法对客户进行聚类的问题进行理论分析和实证研究,具有一定的现实意义。本文第一章主要阐述客户细分的研究背景,并说明研究的动机与目的以及本文研究的步骤。本文第二章对实现客户细分的相关技术理论进行了总结和回顾。利用数据挖掘方法进行客户细分一个关键的问题就是客户细分方法论,在参阅大量国内外理论研究和实践文献的基础上,归纳总结了客户细分方法论,作为后续研究的基础。客户细分通常用聚类分析方法来实现,在阐述了聚类分析相关概念如距离、数据矩阵、变量标准化等基础上,重点分析了K-Means聚类的优点和缺点。K-Means聚类是一种优化聚类算法,运算速度快,适宜处理大数据,但是聚类结果与变量的量纲、异常值的处理方式、变量的维度、观测的顺序以及K个初始凝聚点的选择等都有很大的关系,本章着重对影响K-Means聚类结果的因素尤其是初始凝聚点的选择方法进行了理论上的分析和总结,也对K-Means聚类在实际中应用状况进行了文献回顾和探讨。聚类结果对实际是否有意义,需要对结果从技术和业务两个方面进行评估,本章对聚类结果好坏的评价标准进行了探讨。K-Means算法对高维数据的聚类效果较差,本文引进用主成分分析方法对高维数据进行降维。本文第三章,实证分析架构设计,也就是本论文实证研究方法。CRISP-DM(Cross-Industry Standard Process for Data Mining)是公认的、较有影响的数据挖掘方法论之一。SEMMA是SAS公司对其数据挖掘软件Enterprise Miner提出来的一种对数据挖掘实施核心过程的描述。本文在研究CRISP-DM以及SAS SEMMA的基础上,结合实际情况设计本研究的实证分析流程,探索利用K-Means聚类进行客户细分的一般数据挖掘流程和方法。本文第四章在某银行客户数据的基础上,借助SAS/STAT、EM所提供的统计分析和数据挖掘方法,围绕认识和理解客户的目标,主要利用K-Means算法对客户数据进行实证分析,探索K-Means聚类用于客户细分的主要过程和一般分析方法。本章共对比了实践中比较常用的八种选择初始凝聚点的方法,对他们的聚类结果进行了对比分析,并给出方法实现的SAS代码。这八种方法共分为两种类别:合成初始凝聚点的方法;实际观测点作为初始凝聚点的方法。前者如用初始聚类的质心作为聚类的初始凝聚点(Random centriods)、爬行中点法(Scrambled midpoint)、爬行中位数法(Scrambled median)、非爬行中点法(Unscrambled midpoint),后者如利用SAS默认的两种限制凝聚点替代的方法进行种子选择(记为Replace full)、完全随机法(Random)、拆分法(Breakup)、对每个观测的所有变量值求和(Feature Value Sums)。通过分析证实,合成初始凝聚点聚类结果整体上要优于实际观测点作为初始凝聚点,因为合成初始凝聚点的代表性比实际的观测点要高;在聚类个数K相等的情况下,任何一种选择初始凝聚点的方法,随着试验次数的增加,所有试验次数中误差平方和的最小值越来越小,类内的同质性越来越大,说明用K-Means算法进行聚类,同一方法改变初始凝聚点组合多次运行,并取最优结果的必要性。为了验证K-Means算法聚类的有效性,本文用神经网络方法SOM(Self-Organized Map)对同样的客户数据进行聚类,结果发现两种模型的一致性很高,说明K-Means聚类结果是稳定的、有效的。并用判别分析方法进一步评估了分群的稳定性。最后对细分结果解释和模型部署以及模型应用方面应注意的问题进行了简单阐述。本文第五章为研究结论。通过实证分析发现,用K-Means算法对客户进行聚类需要重复多次运行以取得较为理想的结果。由于数据挖掘的实践性较强,很多具体的问题需要实践中去总结,比如对客户进行聚类,究竟利用过去三个月、六个月还是十二个月的数据并没有理论做支撑,主要还得看细分的效果。本文在最后指出了本研究的贡献和不足,并给出了用K-Means算法进行客户细分后续研究的方向。本文的主要贡献及创新之处在于:1)从写作思路上来看。近年来,数据挖掘综述方面的文章比较多,但是写数据挖掘具体实施的实证研究论文不多见,是本研究的一个有益尝试;目前利用K-Means算法进行聚类实证研究的文章,大多对如何利用K-Means分析的不够深入,也没有K-Means算法进行实证分析的详细过程,对细分后如何解释类和导出应用策略研究的较多,也就是重“业务分析”轻“理论技术”,但是,运用得当的技术可以使细分后的群体同质性更高,也更利于结果的解释,因此本文走的是重“技术思路”轻“业务分析”的路线,用实际数据来探索利用K-Means算法进行客户细分的数据挖掘流程。2)从方法处理的角度来看。基于SAS的K-Means聚类实证研究不多,本文给出了利用SAS进行K-Means聚类,选择初始凝聚点常用的八种方法的SAS代码,有一定的实践参考价值;用SAS/EM的神经网络方法(Self-Organized Map)和判别分析方法对K-Means聚类所得到的结果进行验证,说明K-Means聚类结果的有效性和稳定性;3)从K-Means方法的应用理念角度来看。国内的实证研究文章大多数提到了K-Means是一种局部最优算法,但是并没有指出在现有可利用的工具软件下,如何改善局部最优的困境。本文经过分析指出,对于K-Means聚类结果的技术评价不以算法收敛为准则,而是取通过选取不同初始凝聚点组合多次运行所达到的最小类内残差平方和(SSE)所对应的那个聚类结果为最终结果,可以有效地改善局部最优的状况;K-Means聚类的结果与初始凝聚点选取有很大的关系,本文首次提出无论哪种选择初始凝聚点的方法,只要选择多种初始凝聚点组合方案进行实验,均可以取得较为理想的结果,而且为改善局部最优的状况必须选择不同的初始凝聚点组合进行多次聚类。
其他文献
一、本文的主要指导思想:本文利用模糊集合论中的方法,主要是综合评价法为工具,通过对企业的指标体系进行重新分析,整合出一套文章本身所采用的指标体系,从而对企业的综合盈
总结了辣椒炭疽病的发病症状,介绍了其发病规律,并从农业防治、化学防治、生物防治等方面提出了综合防治技术,以期为辣椒种植户防治该病提供参考。
信用风险是我国商业银行当前面临的重要风险之一,银行大量的不良资产和国外银行的竞争,使得提高银行的信用风险管理水平成为我国银行业面临的重要课题。国际上由于新巴塞尔协
自1987年9月我国第一家证券公司--深圳经济特区证券公司成立至今,我国证券公司经历了20年的发展,已成为证券市场上最重要的参与者之一,形成了具有一定规模的产业。证券业在推
个人理财业务最早出现在瑞士,之后在美国、欧洲以及亚洲的日本、香港等经济发达国家和地区获得了迅速的推广,现己成为世界各大银行的一项主要业务。在巨大的市场需求和机遇面
新课标理念的核心是"以人为本",初中阶段的语文教学中,教师更应该尊重学生的主观感受,发挥他们的个性,增强其学习体验。但是,很多教师对于"以人为本"的思想理解并不深入,导致
过采摘前喷施竹醋液保鲜液以及采摘后竹醋液浸泡的处理方式,研究竹醋液对脐橙常温贮藏的保鲜效果。结果表明:在常温贮藏下,竹醋液处理不同程度地抑制了脐橙的呼吸强度,减少了
通过访谈(interviews)以及应用美国语言学家Oxford所设计的语言学习策略分类问卷调查表(SILL)对广州医学院的6位优秀语言学习者进行了研究,结果发现,6位优秀语言学习者积极使用了各
<正>化学工业出版社出版。定价58元。本书是一部全面介绍电镀用化工原料、添加剂与设备产品的综合性工具书。全书共分7章,分别介绍了电镀添加剂及供应商、电镀用化工原料及厂
目的:观察从奇经论治抑郁症临床疗效。方法:选取2003-2005年辽宁中医药大学附属医院针灸科门诊及住院抑郁症患者48例,以百会、神庭、内关、太冲为主穴针刺治疗。结果:治疗前后自