基于聚类分析的客户生命周期价值挖掘研究

被引量 : 12次 | 上传用户:xtipdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
出现于20世纪80年代后期的数据挖掘,目前已成为知识发现领域小的一个研究热点,也是信息产业界的关注焦点。近年来,国内外学术界和企业界,在对数据挖掘技术和软件工具的研究和开发上都取得了一定的成果。 聚类分析是数据挖掘领域中的一种重要方法。聚类是人类一项最基本的认识活动,通过适当的聚类,事物才便于研究。聚类分析既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤。聚类分析同时也是一个具有很强挑战性的领域,它的一些潜在应用对分析算法提出了特别的要求:可扩展性、处理不同数据类型的能力、发现具有任意形状的聚类的能力、输入参数对领域知识的最小限度的依赖性、能够处理异常数据的能力、数据输入顺序对聚类结果的不敏感性、处理高维数据的能力、基于约束的聚类以及聚类结果的可解释性和可用性等。 本文对数据挖掘的相关技术与理沦进行了一系列的研究工作,主要的研究集中在聚类分析,重点研究了K-means算法及挖掘算法在实际小的应用。主要工作包括: 1) 对聚类算法进行研究,特别研究了K-means这一经典的聚类算法,同时指小了该算法在算法上及实际应用中的局限性:只有在簇的平均值被定义的情况下才能使用;对于“噪声”和孤立点数据是敏感的;对初始聚类小心是敏感的等。 2) 针对K-means算法的不足,本论文对其进行了改进,主要的改进在于初始聚类中心的寻找上。由于K-means算法对初始中心点的选择是敏感的,初始中心点不同,聚类的结果也不相同。针对这种情况,本文给出了一种网格划分的方法用以寻找初始聚类中心,并给出了基于网格划分的聚类算法CGKM(Center Finding Based on Gridding K-means)。 新算法分为两步:第一步是利用网格方法寻找合适的初始聚类小心;第二步是执行K-means算法。算法首先将m-维数据空间的每一维划分为p等份,整个数据空间即被划分为p~Ⅲ个子立方体。然后计算每一子立方体的密度,也就是落在立方体中的点的个数,然后按照密度的大小排序。根据要生成簇的个数计算高基于聚类分析的客户生命周期价值挖掘研究密度的子立方体的中心点,并将该中心点作为初始的聚类中心。然后在此初始聚类中心的基础上执行K一means算法。本论文通过随机点和模拟数据两种方式分别对算法进行了验证。实验结果表明,新算法能够比传统算法找到具有更优聚类质量的聚类划分,且能减少算法的迭代次数。根据改进的算法,结合汽车贸易行业的实际情况,设计了面向汽车贸易行业的数据挖掘模型CLV一Miner(Customer Lifetime Value Miner),并对客户生命周期价值进行了挖掘。模型的设计遵循了数据挖掘的建模过程。模型主要包括以下功能:数据抽取与转换,客户生命周期价值挖掘(根据不同属性组合进行挖掘,以CGKM聚类算法作为基础算法),并将挖掘结果进行显示。系统采用了面向对象技术进行设计及开发,通过Java语言实现,以SQL Server为底层数据库,使用DTS进行数据的抽取、清洗及转换、加载,建立了数据仓库,并结合了Anal ysiS Manager建立了OLAP分析。挖掘的结果以表格、图形等形式进行了展现。最后,本文对挖掘算法及挖掘模型的设计进行了总结,以作为将来对汽车贸易行业数据挖掘模型的进一步设计和研究的基础,同时也为其他行业的数据挖掘模型的设计和研究提供一种思路。
其他文献
耐火材料与高温技术相伴出现,尤其是钢铁工业的突飞猛进,耐火材料向高纯和超高温制品方向发展,同时出现了完全不定型耐火材料和耐火纤维。本文首先主要概述了耐火材料的概念
本文以韩礼德的系统功能语法,话语分析及语用学等理论为依托,从词汇、句子和语篇等层面系统分析了克林顿在北京时的讲话,以期通过个案分析,找出政治演讲语篇中实现人际意义的各类
本文应用复经验正交函数分析方法对1899—1980年期间北太平洋夏季海平面气压距平场进行分析。第一主分量表明,北太平洋海平面气压场是以副热带太平洋高压存在和位移为主要特
普通话是现代汉民族共同语的俗称。它是以“北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范的”。但是汉语有9大方言区:官话,晋语,吴语,徽语,湘语,赣语,客家
理据是指符号的能指与所指之间的联系。汉语词汇的发展经历了原生、派生、合成三个阶段。原生词和派生词都是单纯词,其理据在于音义之间的联系上,复合词是由两个或两个以上语素
<正>销售额大、投放多、重视推广差异化……诸多条件都注定快消品营销成为营销人讨论的重点。快消品对于广告的投放选择,也成为诸多平台与营销方式未来流行与否的风向标。因
本文通过分析道路照明的设计标准并结合视力表这一评价尺度,提出一个新的实验方法,在中间视觉条件下进行亮度对视力清晰度影响的测定实验。分析了在目标物、背景亮度相互改变
本文旨在通过对在中国发行市政债券的必要性和可行性研究,建议适应生产力发展的需求适时建立和发展中国的市政债券市场。文章首先在研究国内外有关文献资料的基础上,阐述了市
林业资源信息具有数据量大、种类多、来源广、结构复杂和获取成本高等特点。随着国家信息基础设施建设的发展,数字林业的发展是时代的要求,也是林业发展的必然趋势。“数字林
<正>随着人们对健康光环境的重视,照明对生态环境影响的研究已在诸多国家深入开展,生态健康照明将成为照明领域研究与应用的方向。为了交流国内外生态健康照明的研究进展,中