论文部分内容阅读
出现于20世纪80年代后期的数据挖掘,目前已成为知识发现领域小的一个研究热点,也是信息产业界的关注焦点。近年来,国内外学术界和企业界,在对数据挖掘技术和软件工具的研究和开发上都取得了一定的成果。 聚类分析是数据挖掘领域中的一种重要方法。聚类是人类一项最基本的认识活动,通过适当的聚类,事物才便于研究。聚类分析既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤。聚类分析同时也是一个具有很强挑战性的领域,它的一些潜在应用对分析算法提出了特别的要求:可扩展性、处理不同数据类型的能力、发现具有任意形状的聚类的能力、输入参数对领域知识的最小限度的依赖性、能够处理异常数据的能力、数据输入顺序对聚类结果的不敏感性、处理高维数据的能力、基于约束的聚类以及聚类结果的可解释性和可用性等。 本文对数据挖掘的相关技术与理沦进行了一系列的研究工作,主要的研究集中在聚类分析,重点研究了K-means算法及挖掘算法在实际小的应用。主要工作包括: 1) 对聚类算法进行研究,特别研究了K-means这一经典的聚类算法,同时指小了该算法在算法上及实际应用中的局限性:只有在簇的平均值被定义的情况下才能使用;对于“噪声”和孤立点数据是敏感的;对初始聚类小心是敏感的等。 2) 针对K-means算法的不足,本论文对其进行了改进,主要的改进在于初始聚类中心的寻找上。由于K-means算法对初始中心点的选择是敏感的,初始中心点不同,聚类的结果也不相同。针对这种情况,本文给出了一种网格划分的方法用以寻找初始聚类中心,并给出了基于网格划分的聚类算法CGKM(Center Finding Based on Gridding K-means)。 新算法分为两步:第一步是利用网格方法寻找合适的初始聚类小心;第二步是执行K-means算法。算法首先将m-维数据空间的每一维划分为p等份,整个数据空间即被划分为p~Ⅲ个子立方体。然后计算每一子立方体的密度,也就是落在立方体中的点的个数,然后按照密度的大小排序。根据要生成簇的个数计算高基于聚类分析的客户生命周期价值挖掘研究密度的子立方体的中心点,并将该中心点作为初始的聚类中心。然后在此初始聚类中心的基础上执行K一means算法。本论文通过随机点和模拟数据两种方式分别对算法进行了验证。实验结果表明,新算法能够比传统算法找到具有更优聚类质量的聚类划分,且能减少算法的迭代次数。根据改进的算法,结合汽车贸易行业的实际情况,设计了面向汽车贸易行业的数据挖掘模型CLV一Miner(Customer Lifetime Value Miner),并对客户生命周期价值进行了挖掘。模型的设计遵循了数据挖掘的建模过程。模型主要包括以下功能:数据抽取与转换,客户生命周期价值挖掘(根据不同属性组合进行挖掘,以CGKM聚类算法作为基础算法),并将挖掘结果进行显示。系统采用了面向对象技术进行设计及开发,通过Java语言实现,以SQL Server为底层数据库,使用DTS进行数据的抽取、清洗及转换、加载,建立了数据仓库,并结合了Anal ysiS Manager建立了OLAP分析。挖掘的结果以表格、图形等形式进行了展现。最后,本文对挖掘算法及挖掘模型的设计进行了总结,以作为将来对汽车贸易行业数据挖掘模型的进一步设计和研究的基础,同时也为其他行业的数据挖掘模型的设计和研究提供一种思路。