针对包含异常值数据的优化K-MEANS聚类算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cl157967874
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-MEANS聚类算法是一种广为应用的简捷的迭代算法,其应用价值和重要性受到很多领域的认可。传统的K-MEANS算法以数据点之间的欧氏距离为测度,误差平方和为目标函数。K-MEANS算法对异常值的存在很敏感,因为“均值”本身就不是一个健壮的统计量。而异常值是这样一种极端的观测结果,它们在数值上远离样本数据集的均值,其存在使得所有基于均值和方差的统计测试一定程度地失真。然而,大样本中总会有一定量的异常值。因此K-MEANS聚类算法的效果不可避免地受到异常值的影响。本文就K-MEANS聚类算法的原理进行了研究,并提出了一个基于异常值删除的K-MEANS优化算法。该算法主要的特点就是利用了K-MEANS聚类算法原理上的缺陷,即会陷入局部极小的特点,在基于聚类的异常值检测的思想下,以聚类的方式寻找异常值并将其删除。算法引入了熵和平衡的概念,作为算法终止的一种条件。为了防止K-MEANS算法陷入某个局部极小而应用了一种类似刺激的机制,即利用类似欠阻尼曲线的变化形式来控制聚类数目的改变,以使K-MEANS算法在陷入某个局部极小而无法继续寻找异常值的时候能够跳出该局部极小,在不断的聚类过程中,能够继续寻找并删除异常值聚类,从而减小K-MEANS聚类算法受异常值的影响,有效地提高了算法寻找聚类中心的能力和聚类的准确率。
其他文献
黄河三角洲有丰富的油气资源,是我国第二大油田-胜利油田和东营市所在地。该地区以粉质土为主,在地震作用下易发生液化造成的多种地质灾害。因此,对黄河三角洲饱和粉土的动力
国家的核心价值观是建立在国家发展建设的基础之上的。而面对全球化趋势的加强,中国如何在面对这些文化冲击的时候,如何去粗取精,在保留自身优秀文化的同时,吸收和借鉴国外的
马铃薯是一种重要的粮菜兼用型农作物,成为继小麦、稻谷和玉米之后的又一主粮,其适应性强、产量高、营养丰富,不仅是世界粮食市场上的一种主要食品,而且也是重要的工业原料,
双足机器人运动问题表现为系统模型复杂、工程实现难度高的特点。该领域涵盖了混合非线性模型,欠驱动系统,环境交互等相关难点问题,从理论和应用实践角度看都是机器人领域里
在学校发展过程中,科学、合理、及时的评价跟进措施,是学校高效运作的助推剂,对学校的发展起着导向和激励的作用。本文结合学校监测与评价形态的开发和应用实际,分别从教育信
习近平生态文明思想是以"生命共同体"概念为基础,从当代中国发展的现实出发,运用马克思主义的生态哲学,对西方生态哲学和中国传统生态智慧继承和创造性发展的结果。与西方"深
正义是社会政治制度的核心价值,古代政治思想与现代政治思想对此论证有着时代上的差别,前者将政治权威、政体、法律等政治观念建立在善周围,后者则建立在个人权利周围;前者理
煤矿安全问题楚困扰煤矿生产的重要问题,而瓦斯灾害是煤矿的首要灾害,激光气体检测技术与其它成熟的气体检測技术相比>如传统的载体催化、热导、半导体气敏,红外测量技术具有
单纯性肥胖病作为威胁大众健康的公共卫生问题之一,其造成机体能量代谢紊乱的机制尚未十分清晰。目前,对单纯性肥胖病病因的研究已经逐渐深入到相关分子机制、遗传因素及基因