面向高维数据的PCA-Hub聚类方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：jzlh6890

【摘要】

：

传统的聚类分析算法往往可以在低维数据空间中取得不错的聚类效果,然而在高维数据空间中却表现很差,这主要是由高维数据空间中的维数灾难所引起的。维数灾难造成的影响之一是

【作者】

：

郎江涛

【出处】

：

重庆大学

【发表日期】

：

2004年期

【关键词】

：

Hub聚类高维数据偏度本征维度主成分分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的聚类分析算法往往可以在低维数据空间中取得不错的聚类效果,然而在高维数据空间中却表现很差,这主要是由高维数据空间中的维数灾难所引起的。维数灾难造成的影响之一是距离集中,Hinneburg和Aggarwal等人已经对高维数据中的距离集中和无意义的最近邻作了深入的研究。维数灾难造成的另一方面影响是hubness现象,本文将会从这个新的方向进行深入分析。Hubness这一概念最初是在2010年由Milos Radovanovic等人提出的,hubness描述的是这样一种现象:在k近邻列表中某些对象趋向于高频率地出现在其它对象的最近邻居列表中。Milos Radovanovic等人利用这一属性提出了四种hub聚类分析算法。Hub聚类算法虽然可以在高维数据空间中进行聚类分析,但是它却忽略了高维数据空间中的冗余和噪声数据,从而无法获得更优的簇结构以及更快的聚类收敛速度。本文针对hub聚类分析算法的上述问题,提出了一种基于逆近邻数偏度降维的PCA-Hub聚类分析算法,此算法可以解决高维数据空间中的冗余和噪声数据,并且能够获得更好的簇结构和更快的聚类收敛速度。实验结果表明,PCA-Hub聚类算法相比之前的聚类算法在轮廓系数上平均提高了15%;当数据集的维数或者逆近邻数的偏度较高时,PCA-Hub聚类算法对近邻数k的选择未表现出强烈的相关性;在实验环境和聚类参数一致的情况下,PCA-Hub聚类算法的结果在很大程度上具有一致性。PCA-Hub聚类算法虽然可以很好地解决高维数据空间中的冗余和噪声特征,然而随着数据集样本数和数据集维数的不断增加,PCA-Hub聚类算法的时间复杂度将会变得越来越严重甚至不可接受。因此,本文提出了一种Quick PCA-Hub聚类分析算法从快速搜索前k个理想的主成分来加快PCA-Hub算法的聚类分析速度。实验结果表明,Quick PCA-Hub聚类算法相比之前的聚类算法在轮廓系数上平均提高了8%;Quick PCA-Hub在高维数据空间中搜索理想的前k个主成分时表现出了巨大的优势。最后,本文提出的PCA-Hub方法可以解决hub聚类算法无法处理高维数据空间中冗余和噪声特征的问题,并且从多方面的实验证实了该算法的有效性。针对PCA-Hub聚类算法搜索前k个主成分时间复杂度过高的问题,Quick PCA-Hub聚类算法通过快速搜索前k个主成分解决了该问题,实验结果表明该算法在高维数据空间上具有较好的表现性。

其他文献

基于系统动力学的航空标准件企业生产仿真研究与应用

随着中国航空事业的快速发展,航空标准件企业迎来新的发展机遇,但同时也遇到了较大的发展阻力。航空标准件产品种类繁多、规格复杂及国防建设的特殊要求,决定其生产系统行为

学位

系统动力学SD模型航空标准件生产仿真研究

C2N石墨烯负载金属单原子电催化还原CO2的密度泛函理论计算研究

近几十年来,随着各国经济的持续发展,过度燃烧的化石能源产生了大量的温室气体二氧化碳（CO2）,导致其在大气中所占的比例越来越高。在理想的条件下,地球上产生与消耗CO2的量是动

学位

CO2还原单原子催化氮掺杂石墨烯电催化密度泛函理论

岩巷综掘工作面粉尘污染时空演化规律与多向旋流风幕控尘方法研究

学位

基于网络特征和时滞的几类复杂网络的同步与控制

同步现象广泛存在于自然和人类社会生产生活中,同步作为复杂网络普遍而重要的群体性行为,近年来受到越来越多来自不同领域研究者的关注.网络同步的研究通常涉及多个学科交叉,

学位

复杂网络簇同步单一脉冲控制周期间歇控制自适应控制

基于Egocentric视频的显著目标提取算法研究

Egocentric视频显著目标提取是指提取Egocentric视频中具有独立视觉意义的显著目标区域,对后续行为识别、场景理解、语义分析等高级视觉任务具有重要意义。近年来,随着穿戴式

学位

Egocentric视频CNN特征有意义帧显著性目标提取视频摘要

基于中介中心性的网络传播节点影响力发现

随着互联网+的盛行,互联网已经逐渐渗透到生活的方方面面。即时通讯如QQ、微信等,在互联网的兴起的初期已经得到了很好的发展,在当今互联网盛行的时代,以微博、Twitter、Face

学位

社交网络传播节点影响力发现数据抽样影响力最大Top-K

基于深度学习的图像画风转变

深度学习是无疑是当今最具有吸引力的研究方向之一。而在人工智能领域内大量的各式研究与应用场景中,基于深度学习网络实现的方法往往都有着出色的表现。其中,基于卷积神经网

学位

深度学习图像画风转变卷积神经网络图像识别损失函数

用于图像复原的模块化神经网络研究及优化

本文介绍了图像复原的基本理论,并对一些常用的图像复原方法进行了讨论,在研究人工神经网络理论的基础上,将图像的复原问题抽象成回归问题并通过模块化神经网络加以解决。讨

学位

图像复原神经网络模块化

基于突变级数法的西北地区新三板挂牌企业成长性评价研究

资本市场的主要功能在于为企业提供全面的融资服务和股份交易服务,解决企业的资金问题,层次多样的资本市场能够为各种不同类型的企业解决不同类型的融资难题,因此,资本市场是

学位

新三板成长性评价突变级数法主成分分析法

基于BEER模型的人民币均衡汇率水平测算

改革开放以来,人民币对美元币值有升有贬,给我国的进出口贸易和境外投融资带来了一定的影响,那么,人民币汇率水平所拥有目标值在哪些范围内可以提升我们国家的经济增长,有利

学位

BEER模型均衡汇率协整检验汇率失调

面向高维数据的PCA-Hub聚类方法研究

与本文相关的学术论文