K-均值聚类算法的研究与改进

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:elsie0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞速发展,当今的生活、生产以及科研的各个领域都正在实现信息的数字化处理,由此产生了数量极其庞大的文本、图像、音频、视频等各种形式的数据。怎样从海量数据中准确高效的提取出隐含未知且有潜在价值的信息,是人们面临解决的重要课题。数据挖掘技术的诞生为这一问题的解决带来了许多行之有效的方法和工具,作为一种新兴的交叉科学的技术,数据挖掘包含多个热门的研究方向,其中聚类分析(简称为“聚类”)是应用最广泛最成熟的数据挖掘技术之一,它的主要功能是根据一定的规则把数据集划分成若干个不同的组,使得同一个组中的数据对象尽可能相似,不同组中的数据对象尽可能相异,数据对象间的相似度的计算是通过描述对象的属性来实现的。目前聚类已经被广泛的应用于数据的预处理过程,在机器学习、空间数据分析、模式识别、商业决策、图像处理、web文档分类和数据压缩等方面也有重要应用。根据构造思想和研究现状的不同,聚类算法大致可以分为以下几类:基于划分的算法、基于层次的算法、基于网格的算法、基于密度的算法、基于模型的算法。K-均值聚类算法是一种基于划分的算法中的经典算法,本文深入研究和分析了K-均值聚类算法的优缺点,同时还针对算法的聚类数目K值依赖用户指定、算法的聚类结果容易受初始中心值的选取影响的缺陷,对K-均值聚类算法进行了研究和改进。本文所做的主要工作包括:(1)介绍了数据挖掘的研究现状和聚类分析的研究背景和相关概念。(2)研究了K-均值聚类算法的基本思想和原理,并分析了K-均值聚类算法的优缺点,对现有的改进K-均值聚类算法的措施进行了分析比较,为得到最佳聚类数目而提出了一种K值的优化算法,实验结果表明算法成功改善了K-均值聚类算法对用户输入K值的依赖性问题。(3)针对K-均值聚类算法对初始聚类中心值的选取敏感并且容易陷入局部最优解的缺点,提出了将全局寻优能力较强的差分进化算法引入算法的思想,用交叉、变异、选择操作来取代聚类中心不断更新的过程。同时对标准差分进化算法进行改进,提出了基于改进的差分进化算法的K-均值聚类算法。最后通过实验验证了改进方案的有效性和可行性。
其他文献
定位技术是无线传感器网络的基础技术,对无线传感器网络后续工作的开展及应用起着关键的支撑作用。本文首先介绍了无线传感器网络定位技术研究现状,分析了定位技术存在的问题和困难,然后对几种典型的定位算法进行了分析,比较其优缺点并提出可以改进的方向。
"双师型"教师队伍建设存在来源渠道单一、专任教师实践能力不强、兼职教师教学能力不足等问题。虽然近年来各高职院校已在探索"双师型"师资队伍建设新途径,但因受各种条件制约,"双
<正>素养主要来自"第一"课堂,学校在抓办学规模和硬件建设的同时,要注意加强内涵建设,包括办学体制、人才培养模式、师资队伍和学生综合素质培养等。在向企业开展用工问卷调
在脑与五脏的关系中,肾与脑的关系最为重要,补肾是预防和治疗脑部退行性疾病的最重要、最基本的原则,补肾健脑是中医学的特色理论之一。虽然中医理论内涵的不足严重束缚了其
【新华网2009年3月5日报道】据伊朗国家电视台2009年3月4日报道,伊朗外交部长穆塔基近日表示,伊朗首台核电机组即布什尔机组将于2009年夏天正式启动运行,首期工程的装机容量为50
【本刊2008年7月综合报道】欧洲原子能共同体供应局(Euratom Supply Agency)于2008年7月初公布了2007年度报告,介绍了欧盟2007年铀市场概况。这份报告首次将欧盟27个国家(EU-27)包
&#183;目前全球核电加速发展面临的一个关键问题是能否获得足够的重型设备制造能力来制造反应堆重型部件,尤其是对于装机容量超过1100MWe的机组;
人口老龄化已经成为国际趋势,我国的人口老龄化形势比起世界上其他发展中国家更为严峻。在这种人口老龄化特别严重的状态下,怎样才能让监护制度更加有益地发挥保护老年人的作
针对单机和两台机器的平行机排序问题,建立了工件同时具有学习效应和恶化效应,机器有可用性限制的排序模型.考虑了目标函数为极小化总完工时间的单机、两台机器的同型机问题
油画在中国的发展有着近两百年的历史,油画自从传入中国开始就与乡土联系在一起,因为中国是一个农业大国,乡村是每一个艺术家艺术创作的盛地。乡土油画在我国东北地区的发展