高维数据子空间聚类方法

来源 :哈尔滨理工大学 | 被引量 : 1次 | 上传用户:hhhanyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受到“维度灾难”的影响,高维数据的聚类效率与聚类结果的精度难以得到保证。为了降低“维度灾难”对聚类结果的影响,采用子空间聚类算法,生成高维数据集的子空间,并将在子空间中聚类得到的结果作为数据分析的依据。这一过程中子空间的质量是保证子空间聚类算法有效性的关键,有两种提高子空间质量的方法,一是在子空间生成的过程中制定有效的生成规则,二是在子空间生成之后根据相应的筛选策略精简子空间。本文同时采用以上两种方法,首先采用高维数据中维度密度高的维度生成子空间。其次在子空间内自适应地生成网格,根据网格密度精简子空间内的数据。之后再次根据维度密度将子空间内的低密度维度剪枝,以提高子空间的质量。聚类过程中采用网格聚类的方法,根据网格的邻接性对子空间聚类。实验证明该算法在UCI(University of California-Irvine)数据集上能得到较好的实验结果,并且在抗噪声能力,伸缩性以及效率实验中都能产生良好的实验结果。针对高维数据中有存在不确定数据的情况,为了避免不确定数据对高维数据聚类结果造成影响,提出高维不确定数据的子空间聚类算法,分别针对高维不确定数据中维度不确定与值不确定的情况提出相应的解决方法。主要采用先将不确定数据确定化,后聚类的方法。在不确定数据确定化过程中,为了提高算法效率,针对不同类型的不确定数据,采用相应的确定化方法。针对值不确定的高维数据,采用KNN(K Nearest Neighbor query)算法查找不确定数据的K近邻数据,并依此得到不确定数据的确定化表示。针对维度不确定高维数据,根据不确定维度在数据集中的维度相似度得到数据集的确定维度。在聚类部分采用Clique(Clustering in quest)算法有效地将确定的高维数据聚类。实验证明该算法在UCI数据集上能够得到良好的实验结果,算法能够有效地聚类高维不确定数据,并产生高质量的聚类结果。在针对不同类型的高维不确定数据集实验中表现出一定的健壮性与抗噪声能力。
其他文献
本文主要考虑二次矩阵方程AX2+BX+C=0的数值求解方法.二次矩阵方程在材料学、物理学、工程学、控制理论和计算科学等诸多领域有着广泛而深刻的应用.对其解的数值求解方法是数值代数的重要研究内容.特别是近十几年随着计算机技术的飞速发展,非线性矩阵方程的数值解在计算数学领域和工程控制领域都逐渐发展成为了一个非常热门的课题.Higham等人于2001年提出了一种求解二次矩阵方程的带精确线性搜索的精确牛顿
无线片上网络(Wireless Network-on-Chip,WiNoC)可以实现高效的片上长距离通信,克服了传统金属互联片上网络长距离多跳传输带来的高能耗、高延迟通信瓶颈问题。在无线片上网
面部微表情是指面部肌肉的瞬间变化,表明一个人正在有意识或无意识地抑制自己的真实情绪甚至心理活动。因此,微表情识别吸引了生理学科和计算机视觉研究范围的多种研究工作,
高性能宽波段光电探测器由于其在光电子领域中重要的应用价值而引起了广泛的科学研究。近年来,二维材料由于其独特的光电特性被广泛应用于光电探测领域。在众多的二维材料体
网络能耗和数据传输可靠性是无线传感器网络路由算法重要的性能指标,分簇路由算法能有效均衡网络能耗,数据汇聚技术能提高网络能量利用率。但目前,兼顾网络能效和移动汇聚节
图像分割是计算机视觉和图像处理领域的核心研究问题之一。语义图像分割,作为其中一个重要的研究分支,其目标是将给定图像中的每个像素分类到某个已知的语义类别。近年来,基
图像去噪过程可以理解为图像的退化过程,该过程是从被噪声污染的图像中尽可能地恢复出清晰的图像。图像去噪的方法有多种,其中,以变分法为理论基础依据而提出的全变分去噪算
随着互联网的高速发展,网络对社会的影响早已变得前所未有。网络行为的主体是人,如何科学地理解人并从人的角度进行设计,是当前设计研究的热点。设计者也不得不重新审视界面
随着我国智能电网建设的推进和现代电子技术的发展,越来越多的非线性负载接入电网,使得电网中谐波和间谐波污染等电能质量问题日益严重。为实现对电网中谐波和间谐波的实时检
HEVC(High Efficiency Video Coding,高效视频编码)是由视频编码联合协作小组JCT-VC于2013年确立的新视频编码标准。与之前的标准AVC相比,HEVC在将视频码率大幅度降低的基础