论文部分内容阅读
数据聚类是重要的数据挖掘技术,是人们认识和探索事物之间内在联系的有效手段,它既可以作为独立的数据挖掘工具,发现数据库中数据分布的一些深入信息,也可以作为其它数据挖掘算法的预处理步骤,且在工程和技术领域具有广泛的应用背景。近几十年来,国内外的研究者们提出了许多聚类算法,力图发现最优方案。随着蚁群算法研究的兴起,人们发现在某些方面采用蚁群模型进行聚类更加接近实际的聚类问题。本文首先分析了聚类分析和蚁群算法。聚类分析是数据挖掘中的一个很活跃的研究领域,主要用于在隐含的数据中发现有意义的数据分布和数据模式。对聚类分析的定义、聚类的方法、数据类型以及聚类结果的度量标准作了简要的介绍。蚁群算法模拟了群体智能,在解决优化处理方面发挥了很好的作用,研究了蚁群聚类分析基本模型和蚁群聚类分析基本模型的LF算法,分析了其算法的优缺点。本文对基于蚁群算法的聚类分析方法及其应用展开了研究,主要工作如下:1、提出了基于信息素的改进的LF算法(ILFBP)。由于LF算法要设置很多的参数,并且对参数设置比较敏感,同时由于定义了蚂蚁在二维网格中是任意移动的,任意移动过程中对某些区域并没有数据对象,而且算法收敛速度过慢,所以算法的聚类效果不好、效率不高。通过在改进LF算法中群体相似度函数,加入参数的自适应调整策略,利用短期记忆和网格信息素的局部分布控制蚂蚁的随机移动,并结合蚂蚁速度动态变化、半径递增、强制放下等特性,提出了基于信息素的改进的LF算法。2、对改进的算法进行分析,并且通过测试数据和不同的算法进行了对比实验分析,证明了改进算法的有效性,算法显示出了较高的稳定性和准确率。3、提出了蚁群聚类文档挖掘系统结构。在典型的文档挖掘流程基础上,分析和设计了蚁群聚类文档挖掘总体结构和文档分词子系统、文档特征向量计算子系统及蚁群聚类分析子系统结构。