基于蚁群算法的数据挖掘方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:a53825777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,应运而生的数据挖掘(Data Mining)技术在这一环境下得以蓬勃发展,越来越显示出其强大的生命力。国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地,而且现今世界几大超级公司也早早地投入到了数据挖掘领域的研究,这其中包括IBM、Microsoft等。数据挖掘是一个多学科交叉的研究领域,涉及到数据库技术、人工智能、机器学习、统计学、知识获取、生物计算等多门学科的理论与技术,其发展必将大大地影响全球信息化的进程。因此对数据挖掘技术进行全面地、系统地、深入的研究是信息化发展的客观需要。本文对数据挖掘技术,尤其是聚类分析技术进行了较为深入地研究与分析,提出了一些想法和改进,主要包含以下内容: 数据挖掘技术综述。介绍了数据挖掘的概念,对数据挖掘技术进行了详细的分类。概括了目前比较常用的数据挖掘方法,并对数据挖掘的任务进行了归纳总结,为本文的全面展开奠定了基础。 聚类分析技术概述。聚类分析作为数据挖掘中一个重要的组成部分,主要用于在潜在的数据中发现有价值的数据分布和数据模式。本文对聚类分析的定义、聚类的方法、数据类型以及聚类结果的度量标准作了简要的介绍。 蚁群算法概述。蚁群算法是一种源于大自然生物世界的新型仿生类算法。该算法特别适合于求解复杂优化问题特别是离散优化问题。本文简要介绍了蚁群算法的产生与发展,并详细阐述了算法的原理及实现过程。 基于蚁群算法的聚类组合算法的研究。在研究了基本蚁群聚类模型、信息熵以及两个经典的聚类分析算法:LF算法和K-means算法的基础上,首先提出了一种基于信息素的K-means改进算法,该算法以基于信息素的转移概率为判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程。然后在深入研究了基于信息熵的LF改进算法的基础上,提出了一种蚁群聚类组合算法策略,该策略首先利用基于信息熵的LF改进算法来完成聚类过程,然后利用基于信息素的K-means算法对聚类结果进行后期优化处理。
其他文献
构件软件在其生命周期中会经历多次演化,在演化过程中会对构件系统进行修改。要验证修改的正确性和新系统的可靠性,就必须对构件系统重新执行测试。构件系统回归测试只需要测试
随着企业合作和管理信息化的发展,许多信息系统要访问异构数据库,这些数据库的异构性体现在数据库类型的不同、数据库结构不同或者数据类型的不匹配。而可扩展的标记语言由于
肾脏和前列腺都是人体的重要器官,近年来肾脏疾病和前列腺疾病对人类健康造成了很大威胁。在肾脏疾病诊断中,医生经常使用CT机来对肾脏的病情进行观察,CTA(ComputedTomographic
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Re
随着人们对信息的各种需求急剧增加,网格计算迅速发展起来,并被认为是信息技术发展的下一波大浪潮。利用网格技术能够实现各种资源的全面共享与连通。目前,Web服务技术和网格
X射线成像是医学诊断中重要的成像手段。成像系统中原始的X射线束穿过人体时会发生散射,这些散射线到达探测器后严重影响成像质量。在探测器前放置滤线栅是防止散射影响图像的
随着网络应用的发展,企业面临的安全威胁不仅仅来自于网络层,更多的是应用层的威胁,如病毒、垃圾邮件、不良Web内容等。网络安全的需求也在发生变化,用户需要能够防御混合型
在网络规模不断扩大、网络应用日益繁多、网络安全隐患大幅增加的背景下,网络管理被上升到计算机网络中一个不可或缺的层面。网络流量识别是网络管理所需用到的技术中的一项,通
随着人类进入"信息社会"时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生.从1959年在美国Pittsburgh大学诞生到现
Web上的信息资源有着海量、动态、异构、半结构化等显著特点,由于缺乏统一的组织和管理而显得杂乱无章,给Web检索带来了一定的困难。使用Web文档自动分类技术可以更加有效地