论文部分内容阅读
信息技术的迅猛发展使人们生产与收集的数字化数据越来越复杂,除了数据的维度越来越高,表示形式也越来越多样化,呈现出多态性、多源性和多描述性的特点,这些数据通常被统一称为多视角数据。当前大量存在的多视角数据,使得传统的面向单一视角的数据分析方法面临着新的挑战。开展多视角分析方法研究,挖掘出多视角数据中潜在的共性信息已成为目前机器学习领域的热点研究方向,具有很好的理论研究意义和应用价值。本文从共享子空间学习的角度入手,围绕多视角数据分析中的数据结构保持、判别信息的引入以及小样本等多视角分析方面的问题进行了深入细致的研究,取得了一定的研究成果。本文完成的创新性研究成果包括:1.提出了一种局部结构保持的判别多视角分析模型。该模型通过引入图约束,使得多视角数据在共享子空间与原始特征空间的局部几何结构关系得以有效保持;此外,通过在共享子空间中引入判别信息,有效地改善了该模型的泛化能力。在多视角数据检索与分类方面的实验验证了该模型的有效性;2.针对多视角分析中的小样本问题,提出了一种基于‘三因子分解’(Tri-factorization)的多视角共享子空间分析方法,并进一步把该方法归结为广义奇异值分解(Generalized Singular Value Decomposition, GSVD)问题。此外,给出了对于‘外点’(Out-of-samples)的在线扩展方法,有效地降低了在线学习的复杂度;3.发展了传统的典型相关分析方法,提出了一种更具普适性的广义典型相关分析模型(Generalized Canonical Correlation Analysis,GCCA)。在此基础上,提出了‘跨图’(Cross Graph)约束,在近似保持数据局部几何结构的同时,进一步反应多视角数据的关联特性。此外,为解决模型优化中的‘非凸’问题,通过将该模型转化为多元特征值问题,给出了有效的序贯求解方法。