基于谱分析的无监督学习方法中若干问题的研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:amdroid_JJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督学习是机器学习中的一个经典任务,主要包括聚类和降维技术。近年来,谱聚类和谱嵌入方法由于其卓越的性能和完整的理论框架,受到了研究者密切的关注,并成为现代无监督学习方法中最具代表性的一类方法。由于谱聚类和谱嵌入都是基于矩阵谱分析理论对数据进行分析,本文将其归纳为基于谱分析的无监督学习方法。该类方法采用图的形式对数据建模,广泛适应各种应用;并有谱分析理论的支持,寻求的大都是全局最优解,因此性能要普遍优于传统的无监督学习方法。但是,随着方法的广泛使用,产生了一些实际问题极大地束缚了其应用与发展。具体来说,在理论方面:关联图构造还主要依靠经验,缺乏理论指导,因而给算法性能带来不稳定性;在应用方面:现有的单模态方法无法有效处理多模态数据。因此,本文针对以上问题展开对基于谱分析的无监督学习方法的研究,并在如下几个方面取得了一定研究成果:   1.基于空间索引技术的谱嵌入关联图构造方法。   谱嵌入方法是通过对由数据构建的关联图进行谱分析得到降维结果,谱嵌入中关联图构造的核心问题是近邻范围的选择,其构造的质量对于谱嵌入方法的性能有着至关重要的影响。本文分析了现有的基于k-近邻构造方法所造成的拓扑不稳定性问题,以及通过遍历对近邻范围k进行自适应选择方法的不足;同时发现现有的构造方法为每一个数据点指定统一的近邻范围大小,不能有效处理非均匀抽样数据。基于以上分析,本文提出基于空间索引技术的谱嵌入关联图构造方法,根据数据分布密度对近邻范围进行自适应选择,以增强谱嵌入方法的拓扑稳定性以及对非均匀抽样数据的适应性。该方法首先提出关联图的最优邻域范围假设,即在保留局部线性的情况下,尽量选择较大的近邻范围;然后,基于该假设,提出基于空间索引技术的“短路”边滤除方法,从而可以根据数据分布密度来自适应地调整邻域范围。基于该构造方法,本文进一步提出了一种更具拓扑稳定性的局部线性嵌入(LLE)算法,该算法可以很好地处理非均匀抽样数据。在S-Curve数据集和Swiss-Roll数据集上的实验结果验证了本文所提出的构造方法的有效性。   2.基于正则化框架的谱聚类关联矩阵构造方法。   不同于谱嵌入中的关联图构造,谱聚类方法把聚类问题等价为关联图的划分问题,因此谱聚类中关联图构造的核心问题是数据的相似性度量,其构造质量对于谱聚类的聚类性能有着至关重要的影响。现有的基于高斯核构造方法在实际应用中存在尺度因子难以选择的问题,以及无法处理多尺度数据的问题,不能描述具有复杂分布的真实数据。因此,本文提出基于正则化框架的谱聚类关联矩阵构造方法,通过机器学习得到最优关联图,以实现利于最优图分割的相似性度量,从而增强谱聚类的性能。该方法首先提出最优关联图所要满足的两个一致性假设:平滑一致性和约束一致性;然后,在保持这两种一致性的目标下,提出基于正则化的优化框架,为最优关联图的构造提供理论保证。基于该构造方法,本文进一步提出了两个谱聚类算法,分别针对无监督和半监督谱聚类。在合成数据集以及真实数据集上的实验结果表明,本文所提出的关联图构造方法充分挖掘数据内部的结构信息,有效地增强谱聚类的聚类性能,并提高稳定性。   3.基于中层融合模型的多模态谱嵌入方法。   在机器视觉以及多媒体信息检索应用中,数据大都呈现多模态特性,并且每个模态通常表现为高维空间中的特征向量。因此,研究多模态谱嵌入技术对于多媒体应用来说,具有非常重要的研究价值。本文分析了目前多模态谱嵌入方法的研究现状,发现现有的解决方法没有从模型本身的学习机制入手,来真正挖掘多模态数据间的互补信息。因此,本文提出基于中层融合模型的多模态谱嵌入方法,该方法试图寻求在所有模态上都尽量平滑的低维嵌入,从而获得优于单个模态的性能。同时,基于对多模态谱嵌入的研究,本文进一步从中归纳得到多模态谱分析方法,该方法可以应用在多模态谱嵌入以及多模态谱聚类中,并可以采用交替优化技术对该方法进行有效地求解。
其他文献
为解决在无线传感器网络中ZigBee协议栈的应用,如何移植整个ZigBee协议栈到目标系统等问题,对ZigBee协议栈移植过程进行了详细的研究。   在研究过程中,分析了现阶段无线传感
网格系统软件的迅速发展使得越来越多的网格应用随之出现,对网格资源的需求日趋多样化和复杂化。同时,由于网格的自治性等特点,同一种资源在不同的管理域中会存在不同的特征描述
稠油由于其粘度高、密度大、流动性差,因此产出比很低,如何能够提高稠油的产出比一直是各大油田非常重视的问题。本课题来源于最早实行稠油开采的辽河油田特种油公司,主要研
流量测量分析通过捕获链路流经的数据包,获得不同协议层次的流量与性能指标,为网络体系结构与协议研究、网络系统设计规划、网络管理与运维提供重要依据。随着互联网体系结构演
随着EAST(Experimental Advanced Superconducting Tokamak)托卡马克实验装置的不断升级和等离子体放电参数的不断提高(LHCD和NBI加热功率分别达到了3.5MW和2.6MW),获得的等离子体
近年来,随着分布式数据库系统在各个领域的广泛应用,越来越多的高校和企业构建了自己的数据中心,以集成单位内部各部门的数据,解决制约单位信息化建设的“信息孤岛”问题。而如何
随着因特网的快速增长,许多的新型应用不断涌现,并且很多应用对于网络传输服务质量的需求越来越强烈。然而,起源思想简单、处理方式单一的IP路由体系已经很难适应越来越苛刻的业
实践十号卫星上搭载了众多载荷,用于进行空间科学实验。为保证载荷的可靠性,在发射之前,需要进行大量的地面匹配实验。本文设计实现了一套控制系统仿真软件,用于载荷地面实验
IPv6协议簇中路由协议的正确性保证是下一代互联网研究的重要课题。一致性测试是一种有效地检验其实现正确性的方法。由于IPv6路由协议具有行为与消息相互依赖的特点,集成数据
编译优化是现代编译器不可缺少的重要功能。编译优化技术在过去几十年里取得了显著进展,对提升程序运行速度、节省存储空间、节省能耗等起到了不可替代的作用。然而,编译优化的