论文部分内容阅读
由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,在这一环境下,数据挖掘应运而生并获得了快速发展,国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地。数据挖掘是一个多学科交叉的研究领域,涉及到数据库技术、人工智能、机器学习、统计学,知识获取、生物计算等多门学科的理论与技术,其发展必将大大影响全球信息化的进程,对其进行系统、深入、全面、详尽地研究是信息化发展的客观需要。而作为数据挖掘分析方法之一的聚类分析更是表现突出,在包括模式识别、数据分析、图象处理,以及市场研究等许多领域得到广泛的应用。本文对数据挖掘技术,尤其是聚类分析进行了较为系统的分析和研究,提出了一些想法和改进,主要包含以下内容:数据挖掘技术的概述。介绍了数据挖掘的概念,对数据挖掘的发现模式、数据挖掘的方法及应用进行了详细的分类、归纳和总结。聚类分析技术的概述。聚类是一种重要的数据分析技术,是数据挖掘理论框架中一个必不可少的部分,通过搜索并识别数据结合,从而描述数据,发现数据之间隐含的、有趣的相互联系。本文对聚类分析的定义、数据类型、聚类分析中的主要算法及度量标准作了简要的介绍和系统的学习。为本文的全面展开奠定了基础。蚁群算法的概述。蚁群算法是一种模拟群体智能的算法,在解决基于离散空间的问题时表现出良好的性能。本文由群体智能引出蚁群算法,并对蚁群算法的原理及特征做了简要的介绍。通过分析蚁群算法的优缺点,指出该算法的一点改进的研究方向。针对蚁群算法早熟、停滞及容易陷入局部最优等缺陷,借助蚁群算法与遗传算法相融合的思想并加以改进,将融合思想由解决离散域问题向更有效的解决连续域问题过渡,引出改进的基于交叉变异操作的蚁群算法,来提高蚁群算法的性能。提高性能的蚁群聚类组合算法的研究。在研究基本蚁群聚类模型的基础上,通过对公式、半径、空间分割的改进,借助于短期记忆的思想,提出了一种改进的基本蚁群聚类方法(ILF算法),通过改进,减少了参数的设置,降低了计算的时间,并具有较强的鲁棒性。结合K-means算法,提出了一种改进的基于信息素的K-means改进算法,通过对改进信息素的转移概率判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程。针对这两种算法的聚类特点,提出一种蚁群聚类组合算法策略,该策略首先利用改进的ILF算法来完成一次聚类过程,然后收集聚类结果样本,对样本数据再利用改进的基于信息素的K-means算法进行结果的后期优化处理,进行二次聚类过程,以此得到比单个算法更优的性能。最后对各种算法进行数据测试和性能分析,并把蚁群聚类组合算法用于银行信用卡客户的消费行为分析。