k-means算法若干改进和应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:liuxuszkx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量数据中发掘潜藏的、有效的、有价值的信息,为金融业、房地产等行业提供信息和决策,这个过程称为数据挖掘。聚类分析是数据挖掘中最重要的方法之一,k-means算法是聚类分析中最简单和最基础的方法。k-means算法有操作简单、速度快、处理大数据有良好的伸缩性等优点,但在数据处理时也时常暴露出致命的缺陷。鉴于k-means算法暴露的一些缺陷,本文主要从三个方面进行改进和分析。1)针对欧氏距离对变量同等对待的特点,本文提出了变异系数法加权。通过与主观经验加权方法的数据应用对比,证明了变异系数法加权欧氏距离可行性和合理性,为实际处理数据提供了方法和依据。2)针对k-means算法中k值模糊性和主观性,提出了使用距离代价函数来确定准确的k值。3)针对k-means算法中初始值的随机选取,利用样本数据分布和贪心思想构造了一种寻找初始值的算法,并给出算法的程序。最后将改进的k-means算法初始值算法应用于数据实例中,从聚类结果、类内距离和类间聚类总和、迭代次数和初始中心点与最终聚类中心点变化程度多个角度分析得出了:改进后的k-means算法比传统k-means算法都有优越性。
其他文献
具有特异电磁性质的超材料逐渐成为了研究热点,其研究重点已从最初的左手材料,逐渐转移至双曲超材料(Hyperbolic metamaterials,HMMs)。此外,近年来由于石墨烯材料尺寸极小、损耗低,在太赫兹到近红外波段能够表现出良好的金属特性且具有较好的光学响应,改变其化学势或外加偏置电压能够调节石墨烯的光学性质,因而用石墨烯代替金属组成双曲超材料,能够拓展双曲超材料适用波段范围,提高结构集成
语义标注是语义Web发展面临的重要挑战之一,主要研究如何给本体代表的符号赋予带有具体含义的语义信息,为互联网上的信息提供具有计算机可以理解的语义,从而实现计算机与计算
新员工从校园走入社会、抑或从一个企业到另一个新的企业,都是踏入了一个完全陌生的环境。新入职员工对企业和社会都相对陌生,但自身期望值却相对较高。这样,在员工与组织之间就
LTE系统正越来越成为无线宽带网的主流,资源分配和调度算法是LTE实现功能、提供业务的核心;对于高速通信网络,系统的目标就是获得极限速率和最小延迟,不同数量用户的场景,着
青年成长与青年教育问题一直以来都受到历届领导人的关心与重视,形成了一系列较为丰富的青年教育思想理论成果。习近平总结前人经验、依据时代发展需求和青年特点,提出了明确的青年教育论述,对青年成长成才具有重要的指导意义。习近平在马克思主义经典作家青年教育思想和中国共产党历届领导人的青年教育思想的基础上,依据青年教育的国际背景和国内背景,从三个方面论述了青年教育思想。第一,习近平关于青年教育作用的思想,指出
目的:观察亚低温对油酸诱导的早期急性呼吸窘迫综合征(ARDS)大鼠Clara细胞分泌蛋白(CC16)、肺表面活性蛋白A(SP-A)含量水平变化的影响,探讨亚低温对油酸型诱导急性呼吸窘迫综
考满是明代和清初考核官员的一种制度,即任满考核。入关以前,满洲贵族建立的后金政权已经开始有了考满制度,清朝入关之后,沿用这一制度,并在实践中不断调整,前后经过三十几年,于康熙
介绍了电子转向控制(ESC)技术的原理与控制方案,在重点分析了NHTSA颁布的FMVSS 126法规和WP 29制定的GTR.8规程关于ESC测评方法的基础上,建立了整车ESC测评试验流程和试验能
屠宰废水作为一种高浓度有机氨氮废水,是重要的有机污染源和疾病传染源,采用气浮-厌氧-兼氧-好氧-消毒组合处理工艺,实践表明:该工艺具有处理效果好、出水水质稳定、操作简便
本文从学习贯彻习近平总书记对做好新时代党的新闻舆论工作重要讲话精神出发,立足岗位实际,以"新闻标题"为切入点,思考在提高新闻舆论传播力、引导力、影响力、公信力这"四力