论文部分内容阅读
由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,应运而生的数据挖掘(Data Mining)技术在这一环境下得到了蓬勃的发展,越来越显示出其强大的生命力。国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地。而且现今世界几大超级公司也早早的投入到数据挖掘技术领域的研究中来了。这其中包括IBM、Microsoft等等。数据挖掘是一个多学科交叉的研究领域,涉及到了数据库技术、人工智能、机器学习、统计学、知识获取、生物计算等等许多跨行业的学科的理论和技术,其发展必将大大地影响全球信息化的进程。因此对数据挖掘技术进行全面的、系统的、深入的研究是信息化发展的客观需求。本文对数据挖掘技术,尤其是聚类分析进行了较为深入的研究与分析,并且提出了一些改进的算法。本文主要包含了以下几个方面的内容:数据挖掘中聚类分析的概述。首先对数据挖掘的概念、数据挖掘系统作了介绍,然后介绍了数据挖掘的分类、过程、数据挖掘的主要问题。随后对数据挖掘技术中的一个重要组成部分--聚类分析进行了阐述说明,主要介绍了聚类分析的定义、进行聚类所使用的方法、数据类型以及聚类结果的度量标准。蚁群算法的概述。群体智能算法是人们通过观察自然界生物群体抽象出来的仿生类算法,而蚁群算法作为生物群体智能算法的代表在求解复杂优化问题,尤其是离散优化问题方面展现出了优异的性能和巨大的发展潜力。本文从基本蚁群的生物学原理和系统学特征出发,介绍了基本蚁群算法的数学模型和实现方法,并分析了基本蚁群算法的时间/空间复杂度问题。基于改进蚁群算法的聚类组合方法。在研究了基本蚁群聚类模型、经典LF算法以及引入了信息熵的LF算法的基础上,提出了改进的单蚁群聚类算法(SACA),然后提出一种利用速度类型各异的单蚁群以SACA并行聚类,然后将产生的结果用超图模型组合成超图,最后利用基于蚁群算法的图划分算法对超图进行划分的多蚁群聚类组合方法:MACCA。最后对MACCA进行数据测试和性能分析。