K-means聚类算法的改进研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:xiaoshang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及,人们的工作和生活更多的与数据信息产生联系,制造和使用的数据量越来越巨大,我们进入了一个大数据时代。人们每天接触大量的数据资源,而所需的信息只是其中极小的一部分,或者是隐藏于其中的潜在信息。如何快速高效的从海量的数据资源中获取所需的那部分信息,如何找出数据之间的联系和规律是我们亟需研究的课题,数据挖掘技术便是在这种需求驱动下出现的多学科交叉的技术。数据挖掘技术的核心功能是从大量的信息资源中发现隐藏的、有效的、有价值的知识,从而更好的理解和应用隐藏在数据中的有效信息,充分发挥数据的价值,为科学决策或政策的制定提供帮助。聚类分析是数据挖掘中常用的技术,在图像分割、电子商务、市场分析、生物学、地理学以及文档分类等众多领域有着广泛的应用。聚类分析的基本原理是:在没有先验知识的情况下,将一个数据集划分成多个簇,使得同一个簇中的数据对象的特征较相似,而不同簇间的数据对象的特征相似性小。聚类分析中有众多的聚类算法,其中基于划分的算法应用最为广泛,因为算法的思想原理简单、算法实现相对容易且对大规模数据集聚类收敛性好等优点而成为应用最为广泛的聚类算法之一,其最具代表性的是k-means聚类算法。然而,传统k-means算法也有多个明显的缺点:如聚类需要凭借经验先指定一个聚类数k值,并且随机选择k个初始聚类中心;聚类结果对初始聚类中心和聚类数k值的依赖性强,对孤立点和噪声点敏感。针对以上缺点,本文提出了一个改进的k-means聚类初始中心点选择算法和一种确定聚类数k值的算法,并用实验验证了改进算法的有效性,两个算法的改进之处在于:(1)针对k-means算法聚类结果受初始聚类中心和异常数据的制约,易出现聚类结果不稳定和收敛于聚类局部最优的问题,提出了一种选取数据集中k个处于密集区域的数据对象作为初始聚类中心的改进算法。该算法提出了一个用于表示数据集中每个数据对象密度的参数m-dist,然后根据该密度参数的值,选取k个相对分散且密度较高的数据对象作为初始聚类中心。该算法可以有效的避免选取到数据集中的孤立点和噪声点作为初始聚类中心,能有效减少聚类的迭代次数,对聚类结果的准确性提高显著。(2)经典k-means算法需要凭经验给定一个聚类数k值,k值的确定具有一定的主观性,容易产生偏差,本文提出了一种确定聚类数的方法,首先根据样本的密度从数据集中选择处于高密度区域的若干数据对象产生一个初始聚类中心点候选集合U,然后根据提出的聚类有效性指标AIBWP的值搜索最佳聚类数,当AIBWP的值达到最大时,聚类有效性指标最优,指标值所对应的聚类数就是最佳聚类数。
其他文献
我国的城市轨道交通建设日趋成熟,已有大量实例证实,轨道交通的修建和运行会对周边建筑产生影响。选取西安地铁二号线及其沿线重要文物建筑——西安城墙南、北门和钟楼为研究
作为一个系统性的战略管理体系,平衡记分卡理论自1992年首次提出以来,仅仅经过20多年的时间,就用大量成功实践的案例证明其科学性及适用性。本文在简要分析战略平衡记分卡理
2006年甘肃省进入老龄化社会,其人口老龄化有着增长速度快、区域差异明显等特点。由于老年人群的消费结构与其他年龄段的人群有着明显的差异,因此人口老龄化的加速肯定会引起
<正>一、合理进行初中教育分流的必要性董泽芳、沈百福认为,教育分流是学校教育系统根据社会的需要与学生个人的意愿与条件,把受完一定基础教育的青少年学生有计划、分层次、
焦点解决短期治疗(SFBT)是以寻找解决问题方法为焦点的短期心理治疗技术,本文探讨基于SFBT这一理论和技术,并由师生合作共建“课前觉察改变、课中聚焦构建解决之道、课后尝试
通过对永耒向斜下三叠统张家坪组中、下段分界标志的砾屑灰岩的岩性描述及沉积环境的分析,确认其在区内是特征明显的唯一砾屑灰岩标志层,并确认该砾屑灰岩对中深部找煤勘查工
<正> 余某某,女,25岁。1988个3月26日入院。患者于元月开始神疲乏力,五心烦热,纳呆,下腹隐痛胀闷,时或便溏一日两三行,即在当地医院治疗,罔效。遂入县医院治疗,经x线钡灌肠摄
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield