高维数据投影聚类算法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:ysr123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  聚类分析作为数据挖掘的一种方法,占有重要的地位。所谓聚类是一个将数据集划分为若干类(cluster)的过程,是否相似的度量是基于数据对象描述的取值来确定的。目前,传统的聚类算法只是在低维数据上取得了较好的效果,随着海量数据特别是高维数据的出现,这些聚类算法变得异常困难。因此,如何对高维数据进行有效聚类已成为数据挖掘研究中的热点。   本文针对高维数据聚类展开研究,首先从理论上说明了随着维数的增加数据无法在全维空间中密集,揭示了高维数据中的稀疏性和维灾的存在以及它们所带来的影响,并且把基于距离的高维数据聚类方法分为维规约、基于网格的子空间聚类算法、Bicluster方法和投影子空间聚类算法,同时对它们的算法思想作了描述。   本文主要对现有的投影子空间聚类算法做了研究,在投影子空间聚类算法的基础上做了三方面的改进:(1)对于每类在其相关空间中每维上对数据聚合程度进行评价,采用密度直方图的方法判别类中的每维是否为候选相关维。(2)对候选相关维提出了一种对异常噪声具有较好鲁棒性的均值(聚合中心)计算方法,可以有效的反映类中大部分数据的聚合特性,并且经过实验验证这种均值计算方法可以有效的消除噪声的影响。(3)把数理统计中假设检验的思想引入了候选相关维方差(聚合程度)的计算,并且给出了正态分布的假设条件下候选相关维方差的计算公式。   实验数据表明,本论文提出的方法可以有效地消除噪声的影响,取得了较好的聚类效果。关键字:聚类分析高维数据假设检验投影聚类子空间聚类   
其他文献
期刊
期刊
短波通信系统研究的一个主要方向就是提高数据传输速率,这也是其它通信系统所面临的主要问题之一。数据传输速率提高的同时必须保证数据传输的可靠性,即保证一定的误比特率。同
期刊
期刊
自二十世纪90年代开始,得益于全世界所拥有的巨大数据资源以及将这些数据资源转换为信息和知识资源的巨大需求,知识发现作为一个从大规模数据库中发现有用知识的过程,逐步发展成
计费系统是网络应用中的一个极为重要的组成部分。随着网络经济的迅猛发展,对计费系统也提出了越来越高的要求。目前网络服务的计费系统一般只能为一种特定的网络服务进行计
  本文提出了一种基于转换编码的无线流媒体代理系统。在有线信道和无线信道的边界设置一个流媒体代理,利用该代理检测两侧不同的网络状况,并采取相应措施提高流媒体的服务质
二十一世纪是信息迅速发展的时代,信息量以惊人的速度在传递,这就要求接收到的信息准确而快捷,信号处理成了人们研究的热点问题之一。盲源分离是指在既不知道源信号分布,又不
在我国人口老龄化不断加剧的大趋势下,对老年人进行及时高效的摔倒救助具有很高的经济价值和社会意义。然而由于一些历史案例的不良影响,国内目前普遍存在老人摔倒在地而无人敢扶的社会现象,关于“老人摔倒扶不扶”的舆论争议不绝于耳,国家卫生部也发布了相关的技术指南,但这些仅仅是从道德和方法角度的指引,急需提出基于科技手段的切实可行的摔倒救助方案。本文由此出发,研究与设计了一个抗抵赖的摔倒安全救助系统,系统的主