基于K-means聚类算法的优化研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:show_me_the_money
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是数据挖掘中的一项重要技术,它是用于发现数据集中数据对象之间的关系,是一种无监督学习的方法。聚类分析技术已经有很长时间的研究历史了,在学术界一直是一个热门的研究领域,也足见它的地位和重要性。目前现有的聚类技术主要包括基于划分的聚类方法,基于层次的聚类方法,基于密度的聚类方法,基于网格的聚类方法,基于模型的聚类方法。  k-means算法一种基于划分的聚类方法,它是最常用的一个算法,正因为如此,本文重点研究了k-means算法,并针对k-means算法的不足之处加以改进,使得k-means算法更加完善。本文主要工作如下:  聚类知识方面,介绍了聚类技术的相关知识,包括聚类算法的概念、分类、相似度度量,聚类准则函数和聚类分析的评价等知识。  聚类算改进方面,重点分析了聚类分析中基于划分的k-means算法,并针对k-means算法的优缺点进行了分析,针对不足的方面,提出了改进策略。包括对k-means算法初始值K的确定和初始聚类中心的确定,使得聚类质量加以改善。针对k-means算法对离群点信息敏感的缺点,提出了使用SSE对边界点进行测试的方法,当边界点对整体的SSE影响较大的时候认定此点为离群点,并对其进行标记,对k-means算法聚类结果的分析有了很好的改善。重点介绍了进化算法中的遗传算法和模拟退火算法,利用这两种算法的较强的全局和局部搜索策略,针对k-means算法容易陷入局部解的缺点,提出了将遗传算法、模拟退火算法相结合并应用到k-means聚类中的SAGAK算法,SAGAK算法来克服k-means算法容易陷入局部最优的问题,在全局和局部都达到最优,得到了较好的聚类结果。
其他文献
变电站工程为市政工程,工程设计中对雨水排除及调蓄设施布置等有特殊要求.根据变电站工程的特点,结合变电站工程水影响评价报告编制实例,总结并分析了水影响评价中“防洪与内
随着电子设备在工业应用中日益增多,对电网的谐波污染越来越严重,为了抑制谐波污染,用电设备需加入功率因数校正装置。有源PFC技术具有功率因数高和总谐波含量小等优点,在过去的二十年里,得到了长足的发展和广泛应用。在航空上,随着航空用电设备的增多,大量的谐波电流涌入航空交流电网,对航空交流电网造成了谐波污染,会影响航空交流电网和用电设备的正常工作。为了保证航空用电设备安全、可靠的运行,航空电网对航空用电
通过构建基于案例推理的湖库藻类水华治理模型,实现对湖库藻类水华治理过程及相关影响因素进行客观模拟.本次在案例推理框架下从基础因素进行本体模型案例库设计,采用复杂网
广东阳春石菉铜矿区位于北东向吴川-四会断裂西南端,对矿床中黄铁(铜)矿化的花岗闪长岩进行锆石U-Pb年代学研究,获得了107.2±2.0 Ma的206Pb/238U加权平均年龄,与区内石菉岩
城市河道行洪过程中,河道淤积容易造成水流局部迂回不畅,进一步加剧河床的淤积,影响上下游河道行洪.为定量研究河道淤积对河道防洪的影响,本次以通惠河为例,分析城市河道的淤
近年来无线电能传输(Wireless Power Transfer,WPT)受到人们越来越多的关注,这种脱离金属导线的电能传输方式能克服传统有线电能传输的诸多弊端,降低安全隐患,使人们日常用电更
以迭代函数系统(IFS)为理论基础的Jacquin全自动分形图像编码方法具有高压缩比、解码迅速且具有分辨率无关性等优点.但其编码过程非常耗时,极大地限制了分形编码的实用化进程
为研究污泥土地利用对玉米产量及安全性的影响,2014年6-9月在北京市灌溉试验中心站通过田间试验的方法探讨了1、2和4 kg/m2等3种不同污泥堆肥利用量条件下玉米产量及植株中重
随着传统能源的日益枯竭,环境污染的不断加重,以新能源为主导的分布式发电越发得到人们的关注,同时以用户端直流负载为导向的分布式电源也得到了国内外学者的广泛研究。一般电源最基本的任务就是提供稳定的电能供给,而这一标准却与大部分新能源背道而驰,诸如太阳能、风能等新能源普遍存在不稳定、受环境因素影响较为严重的特点,因此联合两个以上的新能源进行联合供电成为了分布式电源较为有前景的发展方向,为了节约成本,优化
在软件的生命周期中,软件演化的重要性正变得越来越重要,为了把现有的遗产软件利用起来为我们更好地服务,我们必须对现有软件进行改造和加工以满足要求;我们知道,在实施一个工