图嵌入聚类模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aoli668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和大数据时代的来临,聚类作为一种典型的无监督机器学习方法近年来受到了众多研究者和工程技术人员关注。从数据所含视角数量的角度可将现有聚类方法简单地分为单视角聚类和多视角聚类两个类别。基于图嵌入的聚类方法是聚类领域的主流方法之一,虽然近几十年学者们提出了众多基于图嵌入的单视角聚类和多视角聚类方法,但是这些方法仍然存在一些缺陷。例如现有基于图嵌入的单视角聚类方法主要存在以下缺陷:1)普遍无法得到捕获数据内在结构的仿射图;2)对噪声鲁棒性弱,在噪声数据中聚类性能显著下降。现有多视角聚类方法,特别是基于图嵌入的多视角聚类方法,由于模型设计上的缺陷大多无法处理视角缺失情形下的多视角聚类任务。本文主要研究基于图嵌入的聚类方法,旨在提出更为鲁棒和灵活的图嵌入聚类模型来解决上述缺陷并提高聚类性能。具体地,本文主要提出了如下聚类方法:(1)针对传统图嵌入方法无法捕获数据内在结构的问题,提出了一种基于低秩表示和自适应图正则的仿射图学习方法。该方法在低秩表示框架中引入基于距离的正则项和非负图约束项,从而能够充分地利用数据的全局表示信息和局部距离信息来指导仿射图的构建;为了确保所得到的仿射图具有精确的连通分量,该方法还在模型中引入了拉普拉斯图的秩约束。通过将以上这些约束和低秩表示融入到一个联合优化框架,该方法能够自适应地从数据中学习到捕获数据内在结构关系的仿射图,进而得到更好的聚类结果。在仿真数据集和真实数据集上的实验结果验证了该方法的有效性。(2)针对现有基于图嵌入的单视角聚类方法大多对噪声鲁棒性弱的问题,提出了一种基于自适应加权非负低秩表示的鲁棒仿射图学习方法。通过对现有基于表示的仿射图学习方法进行分析,发现这些方法在仿射图学习的过程中同等地对待所有特征,使得噪声或离群点干扰甚至主导了自表示仿射图的学习。基于此发现,该方法在自表示的仿射图学习模型中引入加权矩阵约束,使得模型能够自适应地增强重要特征在表示中的贡献,同时削弱噪声的不利影响,进而提高对噪声的鲁棒性;此外,该方法还引入了局部距离约束和非负图约束,不仅使得模型能够同时充分地利用数据的局部和全局信息来指导仿射图的构建,而且还能提高仿射图的解释性。在多组噪声污染下的仿真数据集以及真实数据集上与多种聚类算法进行对比,实验结果表明所提出的算法不仅能够获得更好的聚类效果,而且提高了对噪声的的鲁棒性。(3)针对多视角数据中存在视角缺失的问题,提出了一种基于图嵌入的不完备多视角聚类方法。该方法基于低秩表示模型从现有的未缺失的样例中自适应地学习各个视角的仿射图,并利用矩阵初等变换技术将这些图扩充到同样的维度;为了得到多个视角间一致性的低维表征,该方法还引入了谱聚类约束和协同正则约束。通过对模型的联合优化,该方法能够有效地削弱视角缺失所引起的负面影响,同时充分地利用多视角间的多样化信息和互补性信息来指导一致表征的学习,从而得到更好的聚类效果。在多个不完备数据集上的对比实验验证了该方法在不完备多视角聚类任务上的有效性。(4)现有不完备多视角聚类方法普遍存在如下两个制约性能的缺陷:1)忽略了视角鉴别信息的不平衡性;2)没有充分地利用多个视角间的互补信息。为了克服以上两个缺陷以及提高聚类性能,针对性地提出了一种基于图嵌入和视角推理的不完备多视角聚类方法。该方法在矩阵分解模型中引入基于特征近邻的拉普拉斯约束来恢复缺失的视角信息,这不仅使得多个视角能够自然地对齐,便于模型更好地利用多视角的互补信息,而且有利于使用恢复的缺失视角信息来指导模型的训练;为了挖掘数据的局部信息,该方法引入了反转图约束项,该项的引入还有利于得到更合理的缺失视角;考虑到不同的视角可能含有不同程度的鉴别信息,该方法引入自适应的视角加权项来平衡各视角在模型训练中的作用,从而更充分地利用多视角的多样性信息。在特殊视角缺失和视角任意缺失两种条件下的不完备多视角聚类实验对比结果表明所提出的方法能够有效地提高聚类性能。综上所述,本文针对现有基于图嵌入的聚类方法存在的缺陷提出了多种更为鲁棒和灵活的图嵌入聚类模型,并从理论角度深入地分析了所提出的聚类模型的合理性,在多个数据集上与多种性能优异的聚类方法的实验对比结果验证了本文所提出的聚类模型的有效性。
其他文献
特定腐败菌的生长繁殖是导致鲜切莲藕腐败变质的重要原因。分析了鲜切莲藕冷藏过程中微生物菌落总数的变化规律,通过稀释平板法对其冷藏8d后的腐败微生物进行分离,并以细菌16
【正】 从蒙古族诞生以来,宗教便作为该民族社会思想的组成部分之一,伴随蒙古人度过了漫长的岁月.同汉民族相比较,由于各种历史原因,宗教观念在蒙古族中,具有根深蒂固的影响,
提起宋祖英的名字,在中国可谓是无人不知无人不晓,出道几十年来,宋祖英凭借着对于民歌艺术独特的理解,以及甜美的音色,真挚的感情,获得了无数观众的喜爱,发扬了自身的独特闪
目的:综合造影与涎腺内镜,将慢性阻塞性腮腺炎进行分类,评估内镜治疗效果。方法:对35例慢性阻塞性腮腺炎患者进行内镜检查与治疗,采用了普通灌洗、机械扩张和球囊扩张等相应治
研制了以片状镀银铜粉为导电填料,水性聚氨酯乳液和水性丙烯酸乳液为成膜树脂的水性导电涂料。分析了成膜树脂、填料含量、溶剂种类、涂层厚度对涂膜导电性能的影响,并通过涂
扬州自1956年明顾成墓发掘开始,在其后的二十年间明清墓葬陆续被发现。对于这些墓葬中出土的金银器,当时参与考古发掘的专业人员偶有辑录。但由于建国伊始,条件所限,多数墓葬并未形成完整的考古发掘报告。现阶段扬州地区明清墓葬中出土的金银器研究以综合论述较多,并辅之以长度、重量等基本信息,而不见于更深层次的分析。在明确现有研究背景的基础上,论文前篇将依据扬州地区考古发掘报告及实际调研情况,以墓主生卒年时间
【正】 党的十二届三中全会关于经济体制改革的决定明确指出了按照有计划的商品经济模式改革经济体制的方向和原则。但是自觉运用价值规律的计划体制如何建立,指导性计划如何
中小企业可以依靠采用信息技术,利用互联网,进入高新技术产业的行列,显示出特有的竞争力.在以信息技术为基础的现代经济中,规模经济不再是生产方的规模经济,而是需求方的规模
文章从考释“九族”在今古文经学中的差异入手,对中国古代氏族、家庭制度进行了详尽的考证,为了解中国古代社会提供了一把钥匙。
<正> 一、价格双轨制:结构优化的障碍现阶段价格改革的起点已经不是10年前的那种传统的价格管理体制和价格体系了,而是经过10年改革形成的价格双轨制和以此为基础的价格体系