基于遗传算法的改进K均值聚类

来源 :中北大学 | 被引量 : 0次 | 上传用户:stanley45518501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,数据采集和存储技术大大提高,各领域都积累了大量的数据,但是现在分析数据,获取知识和规律的能力远远达不到人们日益增长的对数据中潜在信息的要求,为此,数据挖掘这一课题应运而生。数据挖掘让人们有能力认识数据潜在的真正价值,它是目前数据库和信息决策领域的最前沿研究方向之一。聚类分析是数据挖掘一个重要的研究方向,通过聚类人们能够识别全局的分布模式,以及数据属性之间潜在的相互关系。K均值算法是聚类算法中一种简便易行的划分算法,它具有很多特点,算法简单、收敛速度快、能有效处理大数据集。然而K均值算法存在很多不足,K值无法确定,聚类结果对初始聚类中心敏感,受孤立点影响大等。本文介绍了聚类算法中的K均值算法,并针对其不足引入遗传算法进行改进。文中对遗传算法进行了详细描述,分析了各个遗传操作和遗传参数对遗传算法的影响,设计了基于遗传算法的改进K均值聚类算法,很好的解决了初始聚类中心的敏感问题,改善了算法的全局搜索能力,并且减小了孤立点的影响。首先,采用遗传算法对初始聚类中心进行全局搜索,寻找最优初始聚类中心,并且运行改进的K均值算法,通过K均值算法的局部搜索能力最终找到最佳的聚类中心。其次,在聚类迭代过程中更新聚类中心时不采取将类中所有对象的均值作为下一代的聚类中心而是将与中心距离较小的一部分子集的均值作为下一代聚类中心来解决孤立点的影响。最后,利用现有的标准数据对所提出的算法进行了实验,并将实验结果与传统的K均值算法以及其它改进算法所得结果进行比较,证明了所提出算法的有效性。
其他文献
随着大数据时代的到来,对数据有效合理的分析变得越来越重要,而可视化则是数据分析中一种极其重要的方法。本文提出了一种基于领域特定语言的智能数据可视化引擎,专门用于数
随着无线技术的发展,无线传感器网络,车载传感器网络和移动网络在近些年内受到了越来越多的关注。然而,由于无线信道开放的特性,无线网络容易受到信息窃听、消息篡改、身份假冒等
目前市场上的计算机多采用多核多处理器结构,然而软件技术的研究远远落后于硬件技术的发展,多数程序员还不能掌握并行程序的开发技术,传统应用程序无法利用多核多处理器的卓
随着Internet和宽带多媒体业务的发展,视频成为现代信息传播的主流载体之一。视频信息的大量涌现,使得如何快速的从海量的视频数据中检索出所需的资料变得至关重要。基于内容
在当今网络的中,P2P技术的应用变的越来越普遍,人们对P2P技术的关注与研究也越发深入,随着用户间信息的频繁交换,P2P网络中的搜索方法也变得尤为重要。P2P网络中的信息交换,
随着电子商务的普及与繁荣,针对电子商务的检索技术开始被越来越多的研究者所关注,其中,作为电子商务检索技术的核心问题之一的产品名实体识别技术也成为了一个重要的研究课
随着Internet和WWW网络的广泛普及,信息以网页为载体,传递速度飞速提升,通过Web获取信息购买产品已成为时代主流。然而网络上的各种信息资源以爆炸式的速度增长着,信息过载使
计算机系统所支持的内存容量不断增加,而内存价格却不断走低,这让内存数据库系统得到了很好的发展时机,它将所有的数据存储于内存中,以此来消除磁盘读写瓶颈。然而在大数据时
无论是在国家重要部门,各个关键领域还是在人们的生活,工作,娱乐中,视频监控都扮演者十分重要的角色,为国家和人民的财产提供了强有力的保障。高清化,智能化,实时性一直是视
寻径技术一直是人工智能中比较重要的研究内容,广泛应用于游戏、虚拟现实、导航、机器人等领域。随着计算机图形学技术的发展,场景的立体化、复杂化,三维场景的寻径得到了越