论文部分内容阅读
由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,应运而生的数据挖掘(Data Mining)技术在这一环境下得以蓬勃发展,越来越显示出其强大的生命力。国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地,而且现今世界几大超级公司也早早地投入到了数据挖掘领域的研究,这其中包括IBM、Microsoft等。数据挖掘是一个多学科交叉的研究领域,涉及到数据库技术、人工智能、机器学习、统计学、知识获取、生物计算等多门学科的理论与技术,其发展必将大大地影响全球信息化的进程。因此对数据挖掘技术进行全面地、系统地、深入的研究是信息化发展的客观需要。本文对数据挖掘技术,尤其是聚类分析技术进行了较为深入地研究与分析,提出了一些想法和改进,主要包含以下内容: 数据挖掘技术综述。介绍了数据挖掘的概念,对数据挖掘技术进行了详细的分类。概括了目前比较常用的数据挖掘方法,并对数据挖掘的任务进行了归纳总结,为本文的全面展开奠定了基础。 聚类分析技术概述。聚类分析作为数据挖掘中一个重要的组成部分,主要用于在潜在的数据中发现有价值的数据分布和数据模式。本文对聚类分析的定义、聚类的方法、数据类型以及聚类结果的度量标准作了简要的介绍。 蚁群算法概述。蚁群算法是一种源于大自然生物世界的新型仿生类算法。该算法特别适合于求解复杂优化问题特别是离散优化问题。本文简要介绍了蚁群算法的产生与发展,并详细阐述了算法的原理及实现过程。 基于蚁群算法的聚类组合算法的研究。在研究了基本蚁群聚类模型、信息熵以及两个经典的聚类分析算法:LF算法和K-means算法的基础上,首先提出了一种基于信息素的K-means改进算法,该算法以基于信息素的转移概率为判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程。然后在深入研究了基于信息熵的LF改进算法的基础上,提出了一种蚁群聚类组合算法策略,该策略首先利用基于信息熵的LF改进算法来完成聚类过程,然后利用基于信息素的K-means算法对聚类结果进行后期优化处理。