论文部分内容阅读
在当今信息爆炸的时代,海量数据随之涌出,这给知识发现带来了挑战,同时为数据挖掘技术提供了很大的发展空间。聚类分析是数据挖掘中的一项重要技术,被广泛的研究和应用,它不仅能独立完成数据分析,还可以结合其它方法挖掘出更有价值的知识。聚类分析起源于许多其它的科学领域,包括统计学、生物学、数据挖掘和机器学习等等。目前,聚类分析方法主要应用于市场分析、模式识别、数据分析、图像处理等多个研究领域,为研究人员和决策者提供了一定的研究课题和相应的技术支持。基于聚类的数据技术,经过多年的研究与发展,方法大致可以分成五类,在实际运用中,我们可以运用某一种方法来解决问题,但大多数情况下,针对问题规模大小和数据分布情况,结合多个聚类方法的思想,或是引入其它方面的数据挖掘算法,取长补短,设计出更有效的算法,目的是能更好的处理多种实际问题,得到更有价值的知识。本文对聚类中常用的两种算法进行了分析研究。首先,介绍了CLIQUE聚类算法,该算法是综合了基于密度和基于网格的一种数据聚类分析算法,对于大型数据库中高维数据的聚类分析具有很高的效率,能得到很好的聚类结果。但是由于在运用过程中,常将方法简化,导致聚类结果精确性可能会有所降低。本文分析了CLIQUE算法的特点,提出了它的不足,为以后研究工作指明了方向。然后,重点介绍了基于划分的K_means算法及其应用,本算法采用启发式方法,算法思路清晰易于理解,收敛速度快,目前应用范围广泛。但是,K_means算法也存在一些缺点和不足:(1)算法对聚类分析选择初始聚类中心点时,是随机产生进行选取的;(2)参数的输入较多,对于不同的数据集,参数的选择对聚类结果有一定的影响,而在分析开始无法精确的选择参数。本文分析研究了K_means算法中聚类中心初始化的重要性,以及现有的几种初始化聚类中心的算法及其改进思路。在此基础上,融合了基于距离和基于密度的聚类算法的基本思想,采用了基于高密度的初始聚类中心算法。实验结果表明,基于高密度选择初始聚类中心算法,能有效减少K_means算法的迭代次数,对初始聚类中心的选取更合理。最后,本文将基于高密度的K means聚类分析技术应用于信用卡恶意透支预测,对系统中现有的黑名单进行聚类分析,挖掘出他们恶意透支的相似性,从而预测当前哪些客户有恶意透支的可能性,向发卡行提供预报信息,做到防微杜渐。