子空间聚类模型与算法研究
【摘 要】
:
聚类分析是数据挖掘领域中的关键技术之一。面对低维数据,传统的聚类算法能够取得理想的结果。随着数据获取技术的不断发展,数据的维度急剧增加,传统的聚类算法受到了严重的瓶颈限制。因此,设计更为高效的、先进的聚类算法以满足高维数据挖掘需求,已成为研究的热点。一般认为高维数据嵌入在低维的流形中,子空间聚类(Subspace Clustering,SC)的目的是将源自不同子空间的高维数据,划分到其所属的低维子
【机 构】
:
南京理工大学
【出 处】
:
南京理工大学
【发表日期】
:
2021年01期
论文部分内容阅读
聚类分析是数据挖掘领域中的关键技术之一。面对低维数据,传统的聚类算法能够取得理想的结果。随着数据获取技术的不断发展,数据的维度急剧增加,传统的聚类算法受到了严重的瓶颈限制。因此,设计更为高效的、先进的聚类算法以满足高维数据挖掘需求,已成为研究的热点。一般认为高维数据嵌入在低维的流形中,子空间聚类(Subspace Clustering,SC)的目的是将源自不同子空间的高维数据,划分到其所属的低维子空间,这是实现高维数据聚类的有效途径。近年来,作为一种基于广义稀疏表示的谱聚类算法,稀疏子空间聚类由于其优越的聚类性能、易处理和计算的有效性等特点被广泛关注,已成为子空间聚类的研究热点。稀疏子空间聚类的核心任务是通过构建表示模型来揭示高维数据的真实子空间结构,通过优化模型获得低维子空间下的系数表示矩阵,进而构造有助于精确聚类的亲和度矩阵。稀疏子空间聚类在图像处理、模式识别等领域取得了成功的应用,但仍存在很多问题亦有较大的发展空间。本文在基于表示的谱聚类方法框架的基础上,针对现有模型中存在的一些问题,在适应非线性数据并抑制大尺度噪声的能力、算法的有效实现、模型推广以及应用等方面进行了探讨和研究,主要研究成果及贡献如下:(1)提出了一种基于Schatten p-范数和相关熵的鲁棒低秩核子空间聚类方法。考虑到高维数据可能包含复杂的噪声和非线性结构,在稀疏子空间聚类(Sparse Subspace Clustering,SSC)的框架下,利用“内核策略”将线性子空间聚类扩展到非线性子空间聚类上,并采用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)对得到的优化问题进行有效求解。使用Schatten p-norm正则化可以有效地逼近特征空间中数据的秩,并给出了求解该子问题的闭式解。用相关熵来度量数据大尺度污染,可以有效提高模型的鲁棒性。同时,针对半二次优化中存在闭式解的半二次理论的特点,提出了一种有效的算法来求解模型。在多个标准数据集上的实验结果表明,该方法显著提高了聚类性能。(2)提出了一种鲁棒低秩核多视图子空间聚类方法。多视图数据可以从不同的角度全面描述目标。可以看出,多视图子空间聚类是一种有效的聚类问题。现有的多视图聚类方法通常是将原始问题凸松弛以便求解,但这类方法得到的往往是次优解。针对这个问题,我们借助(1)中提到的方法,将非凸Schatten p-范数(0
其他文献
随着图像数据的日益增长,图像近似搜索(又称图像检索)扮演着越来越重要的作用。在过去的几年里,监督的图像检索可以获得令人满意的效果,然而由于带标签数据集的稀少以及人工标注的成本太高,无监督的图像检索成为主要关注点。为了节省存储空间,本文研究稀疏图在无监督图像检索中的应用,致力于在节省空间的同时提高图像近似搜索的精确度。该技术目前有以下三个主要问题需要解决:(1)标签信息缺失情况下的近邻信息挖掘问题。
目前,黑磷作为一种新型的二维层状半导体材料,具有石墨烯等其他二维材料不具备的优异性能,如高电子迁移率和开关比、具有直接带隙,良好的生物安全性等等,这使其在生物、医疗、光催化等领域有着广泛的应用潜力。本文基于上述优点对黑磷在光动力学治疗领域的应用进行了研究,首先对制备黑磷量子点的工艺进行了探索,采用液相剥离的手段获得黑磷量子点(BPQDS),并通过高分辨透射电子显微镜(TEM)、拉曼光谱仪(Rama
随着遥感对地观测技术的发展,单一类型的遥感图像已经无法满足逐渐增长的应用需求,而不同类型的遥感数据的之间会存在一定的差异性和互补性,因此越来越多的学者将目光转向了多源遥感数据的协同分类。在众多类型的遥感图像中,高光谱图像以其精细的光谱分辨率在地物分类中占据重要的地位,但高光谱图像普遍存在空间分辨率低的问题,空间分辨率的不足导致图像中会存在较多的混合像元,这给地物的精细分类带来了极大的干扰。因此,本
冲压加速器是一种利用混合气体推进剂的化学能,将弹丸加速到高超声速的新概念推进装置。推进剂的反应速率和放热量较高时,火焰阵面会向弹丸前体移动,并越过弹丸肩部,对弹丸产生阻力,产生不启动现象。当弹丸肩部表面存在激波反射点时,激波后方的高压区对火焰的传播有一定的阻塞作用,能够扩大推进剂的反应速率范围。根据这一思想,本文基于粘性理想气体假设,采用SST k-ω湍流模型、有限速率/涡耗散模型和甲烷-氧气单步
运动想象脑电信号是由大脑进行想象运动时激发的信号。基于运动想象脑电信号控制的脑机接口(Brain Computer Interface,BCI)系统可以直接将大脑想象的运动意图解码为控制指令,完成对外部设备的控制。作为一种新型人机交互技术,BCI系统可以应用于多种场景,但是实际应用中基于运动想象脑电信号的BCI系统存在着:运动想象脑电信号种类少、多分类任务的识别准确率低和实时传输速率慢等问题。为实
由于通讯网络连结了网络空间及实体空间,因此网络化控制系统可以在长距离下执行许多任务。而且,网络化控制系统的信息都透过共享的网络传输,省去了不必要的配线,减少系统复杂度,也降低了设计及架设系统需要的成本。若要增加传感器、控制器或是执行器来调整或是更新系统,也可以用较低的成本达到,而且不会变动系统的主架构。因此,与传统的控制系统相比,网络化控制系统有无与伦比的优势。在此基础上,本文研究了基于采样数据的
专利是重要的知识财富,通过研究专利可以找到重要的技术细节和关系,这些信息和关系为制定研发策略提供有价值的信息。因此有必要进行专利检索和核心专利识别方法的研究。但随着专利数量增加,专利检索成本以及核心专利识别难度也日益增加,主要原因在于专利描述文本自身的特点,如专利文本冗长,专利描述中充斥着各种技术和法律术语等。为了提高检索质量以及准确度,通过核心专利推演关键领域未来的发展趋势,论文以专利文本作为研
过高的特征维度导致了机器学习训练过程中存储开销大,运算量大,时间成本高。并且,这种现象随着环境空间维度的成倍增加,而训练数据在整个数据空间中的比例急剧下降,导致训练模型泛化较差。解决这些问题的一个重要方法是降维,即通过一些有效的手段将原始的高维空间数据转换到低维子空间。流形学习假设高维环境空间中的数据分布于低维嵌入的某个流形上或附近,因而降维问题可以理解为低维流形恢复问题。鉴于非线性流形学习算法在