论文部分内容阅读
数据挖掘(Data Mining)是在海量的数据中提取隐含在其中的有用信息和知识的过程。数据聚类(Data Clustering)是其中一项重要的数据挖掘技术,是人们认识和探索事物之间内在联系的一种有效手段。它既可以作为独立的数据挖掘工具,发现数据库中数据分布的一些深入信息,也可以作为其它数据挖掘算法的预处理步骤,且在工程和技术领域具有广泛的应用背景。聚类(Clustering)就是将数据对象划分到不同组(Group)/簇(Cluster)中,使得属于同簇内的数据对象具有相似性,而不同簇的数据对象具有相异性。
本文在充分研究了现有蚁群聚类算法的基本原理与特性的基础上,为了提高算法效率,改善聚类质量,经过对引入信息熵的蚁群聚类算法的研究、归纳和总结,提出一种改进的基于信息熵的蚁群聚类算法。主要思想是尽可能赋予蚂蚁以智能行为,一方面将蚂蚁在聚类过程中的一次迭代活动的比较区域半径逐渐增大,以此减小空间内数据疏密程度的变化对算法进度造成的影响;另一方面,在引入信息熵的聚类算法以避免基于蚁巢分类模型的聚类算法中蚂蚁随机拾起/放下数据对象的基础上,又引入了观望策略来引导蚂蚁移动的方向,代替随机移动的策略,将蚂蚁活动与周围的信息熵环境紧密地联系在一起,利用蚂蚁对历史若干组(视数据规模等条件而定)熵信息的记忆和更新,来改善传统的随机方向选择机制对算法效率的影响。
本文的研究具有一定的理论和实践意义。通过实际数据集的实验表明,改进后的算法有效地提高了聚类的质量,并在一定程度上减少了算法的迭代次数,有利于算法效率的提高。