论文部分内容阅读
随着计算机科学与技术的普及和应用,特别是近年来,数据库技术和信息技术的蓬勃发展,人们产生和收集了大量的数据,但是如何从中发现有价值的信息,达到为决策服务的目的,成为了一个非常艰巨的任务。于是数据挖掘技术应运而生,并显示出其强大的生命力,从而逐渐成为研究的热点。
数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取或者“挖掘”知识的一个过程,而聚类分析是数据挖掘研究领域中一个非常重要的研究方向。所谓的聚类就是对数据集中的数据应用某种方法进行分组,使得每组内部的数据尽可能相似而不同组之间的数据尽可能不同,从而发现数据集内在的结构特征。
聚类分析已经广泛地运用在许多领域,包括模式识别、数据分析、图象处理以及市场研究等。通过聚类,人们能识别密集的和稀疏的区域,从而发现全局的分布模式及数据属性之间的相互关系。在目前的许多领域活动中,多数情况是无先验规律的,数据划分的类是未知的,信息的整理、分析和知识转化是一个无监督的过程,因而聚类分析就拥有了广阔的市场,但目前聚类分析技术无论在理论研究还是实际应用中都还不成熟,有待进行更深入的研究。
21世纪将是一个“客户经济”的时代,企业的经营理念正在由“以市场为中心”向“以客户为中心”转变。实际运作中,企业很快就发现并非所有的客户都能为企业带来利润。市场分析理论认为,企业80%的利润来源于20%的客户。因此,这就要求企业挖掘客户价值数据,掌握客户的行为规律,并运用于企业决策中。国外一些优秀的企业已经开始注意数据挖掘技术在这方面的应用,但在国内,无论是客户关系管理还是数据挖掘技术的应用,都还处于起步阶段。目前的研究多集中在数据挖掘算法的研究、改进和实现上,而将数据挖掘技术应用于客户价值挖掘方面的工作却很少。
本文从研究数据挖掘聚类分析的基本算法入手,详细介绍了现有的经典聚类分析算法,并阐述了近年来才开始研究的聚类融合算法的基本思想及关键问题。在此基础上,提出了基于投票策略的聚类融合算法,并结合加权的思想和随机划分属性子空间的方法对算法作进一步的改进。随后,研究并实现了基于Co-association矩阵的聚类融合算法,同时引入随机划分属性子空间和随机划分样本子空间的方法对算法加以改进,实验结果进一步证明了聚类融合方法的优越性。最后,本文采用iava技术设计实现了一个客户细分原型系统,成功运用以上聚类分析算法对客户价值进行挖掘研究,对客户进行细分,从而找出各类客户的特征,为企业相关的经营活动提供有益的帮助。具体地,论文主要内容有:
(1)系统综述了聚类算法特别是聚类融合算法的国内外研究现状,总结了聚类算法在客户细分领域的相关研究,指出了目前研究中存在的主要问题。
(2)简要介绍了聚类分析的基本概念及其产生和发展过程,详细讨论了聚类分析中经常出现的数据类型及其预处理方法,总结分析了传统的聚类算法,进而重点阐述了聚类融合算法的基本思想,并详细分析了聚类融合算法中的两个关键问题。
(3)以K-means算法作为基础算法,提出了基于投票策略的聚类融合算法和基于Co-aSsociation矩阵的聚类融合算法的一个变种算法。进一步地,在基于投票策略的聚类融合算法中引入加权和划分属性子空间的方法,在基于co-association矩阵的聚类融合算法中引入划分属性子空间和划分样本子空间的方法,并通过实验结果比较,证明了聚类融合方法的高效性和有效性。
(4)成功地将本文提出的聚类融合算法应用于客户细分中,详细讨论了从客户数据的选取、客户细分原型系统的设计,到不同算法的实验结果与分析的过程,并论述了不同类别客户的服务策略。