K均值算法初始聚类中心选取相关问题研究

来源 :兰州交通大学 | 被引量 : 16次 | 上传用户:yu351464325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的功能之一,是在训练数据不提供类标号的情况下按照最大化类内对象间的相似性、最小化不同类对象之间的相似性的原则聚类和分组数据。目前,存在着大量的聚类算法,K均值算法是应用广泛的聚类算法之一。K均值算法的优点是:算法思想简单;时间复杂度接近线性;对大规模数据的挖掘具有可伸缩性,但是该算法存在如下缺点:对聚类初始值的依赖;聚类个数K需要预先给定;准则函数易陷入局部极小;对离群点敏感等等。本文重点针对K均值算法对初始聚类中心的依赖性,提出了基于密度选取K个初始聚类中心的算法。其主要思想是:在一个数据集合里,高密度区域的数据对象被低密度区域的对象所分割,处于低密度区域的数据对象通常被认为是噪声点。首先根据两个参数(邻域半径ε、高密度点在邻域半径内至少包含数据对象的数目MinPts),划分高低密度点,然后取高密度点集合G中相距最远的K个点作为初始聚类中心。通过在不同数据集(来自UCI数据库)上对两个算法的多次对比实验,验证了基于密度选取K个初始聚类中心的K均值算法比传统的K均值算法聚类结果准确率更高,更稳定。研究进一步给出了基于距离矩阵D确定ε和MinPts参数值的方法。主要思想是:通过距离矩阵计算每个对象距离的中间值(median),然后取这些中间值的平均值作为ε的值。计算每个对象邻域半径e内对象的个数,将这些个数相加,再除以2*n,获得参数MinPts的值,其中n是数据集对象的个数。通过检验聚类结果是否理想或者以文献已给定的经验值作正确性判断依据,两种检验方法的多次实验都验证了计算两个参数值的算法是可用的。
其他文献
在过去的十年里,复杂动态网络及其研究被广泛地应用于许多领域,如社会经济,生物工程,机械工程等方面。复杂动态网络的非线性动态性和网络的拓扑结构影响着其动态行为,而复杂动态网
线性模型是现代统计学中理论丰富、应用广泛的一个重要分支,在生物、农业、经济、工程技术等领域取得了长足发展.多元线性回归模型是线性模型中的一种,它反应了多个变量之间的
分数微积分至今约有300年历史,作为一个相对比较年轻的学科,在很长一段时间都只在数学领域被人关注。随着高科技的迅猛发展,与其他领域的交叉越来越多,尤其是在控制理论,粘弹
本文描述了一种小型、整块粘合的激光陀螺,它带有一个高稳定、高精密、整块粘合的激光楔形微型干涉议.为了陀螺的高稳定性,楔形微型干涉仪用零膨胀材料制成;而在整块零膨胀材
观点在社会生活中是无处不在的,几乎所有人都拥有自己的观点.观点对人们的言行,对企业的管理,对相关部门的决策和优化等等都具有指导性的作用.近些年来,人们提出了很多种观点模型
本文中,我们考虑RN区域中带有周期位势的p-Laplace方程,而且并不假设Ambrosetti-Rabinowitz条件成立.我们主要利用山路引理,Lions引理等临界点理论知识证明基态解的存在性.本文
本文首先探讨了几类中立型时滞微分系统的周期解问题,然后讨论了几类确定性捕食-食饵生物种群系统的动力学行为,最后考虑了在随机噪声作用下几类生物种群系统的动力学性质。主
摘 要:我国现代化建设中,油气运输的范围越来越广,油气储存工程是油气运作过程中的重要组成部分,对于促进油气运输顺利完成具有重要影响。本文就油气储运管道发生腐蚀情况的原因进行分析,提出油气储运管道防腐技术的应用情况,并指出油气储运管道防腐技术的未来发展方向,以不断减低油气储运管道的腐蚀率,促进我国油气储运管道防腐技术水平不断提升。  关键词:油气储运 管道防腐技术 应用  随着经济快速发展,我国现有