论文部分内容阅读
近年来,数据挖掘获得了快速发展,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。国内主流的网站评比的未来十大热门技术中,数据挖掘占了一席,而且现今世界几大超级公司也早早地投入数据挖掘的研究,这其中包括IBM、MicroSoft等。数据挖掘技术集数理理论、专家系统、人工智能、神经网络、图形图象设计等多门学科于一身,其发展速度必将大大影响全球信息化的进程,对其进行系统、深入、全面、详尽地研究是信息化发展的客观需要。本文对数据挖掘技术,尤其是聚类分析进行了较为系统地分析和研究,提出了一些改进的算法,主要包括以下一些内容: 数据挖掘技术的概述。对数据挖掘技术的产生进行了简要的回顾,对数据挖掘的发现模式和常使用的技术进行了详细地分类、归纳和总结。对数据挖掘技术的应用进行了归纳,为本文的全面展开奠定了基础。 聚类分析的概述。聚类分析是数据挖掘的一个重要的研究方向,是一种无监督学习的方式,在许多方面发挥着重要的作用。对聚类分析的定义、使用的数据类型和主要的算法等进行了简要的介绍。 蚁群算法的概述。群体智能是模仿自然界昆虫行为的一个研究领域,同样也在许多领域取得了较为突出的成绩,而且有了一定的发展。蚁群算法是群体智能的一个典型代表算法,而且应用面比较广。对基于蚂蚁寻路和蚂蚁聚类的算法分别进行了简要介绍。 基于阈值的T-Value算法及蚁群聚类组合算法的研究。在研究了基本蚁群算法的基础上,结合蚂蚁寻路和觅食的习性和聚类的思想,提出一些想法和改进。首先把蚂蚁觅食原理结合k-means提出了一种基于信息素的k-means改进算法;根据密度聚类的思想,提出一种基于阈值的算法-T-Value算法,同时引入ε邻域到T-Value中,结合基于信息素的k-means算法提出了一种T-Value聚类组合算法;结合LF算法和基于信息素的k-means算法,提出另一种聚类组合算法-蚁群聚类组合算法。最后对各种算法进行数据测试和性能分析,并把蚁群聚类组合算法用于移动客户的消费行为分析。