论文部分内容阅读
在机器学习领域,越来越多的研究者认识到当数据具有非欧氏结构时,采用开发于欧氏空间的机器学习方法通常会由于忽略数据的这一特殊的几何结构而产生次优的结果。为了克服这一缺陷,目前有一类新的机器学习方法假设用于表示输入数据的黎曼流形是显式已知的,通过开发已知流形的黎曼度量来在训练数据上学习有效的判别模型。本文将这一类机器学习方法称为黎曼度量学习。近年来,基于传统统计模型的黎曼度量学习方法已经被成功应用于诸多计算机视觉与模式识别领域的分类问题。以具体的基于视频的人脸识别任务为例,人脸视频序列通常包含非常丰富的人脸动态时序信息和多视空间信息。为了解决视频人脸识别问题,一些传统的统计模型(如线性子空间、协方差矩阵和高斯概率模型)通常可以用来有效编码视频序列中的人脸变化模式,从而成为一种鲁棒的视频特征。由于这些统计模型通常位于一个特定的黎曼流形上,现有的黎曼度量学习方法可以为这一问题提供一种有效的判别学习策略。因此,本文针对视频人脸识别问题,从对视频序列的统计建模出发,围绕黎曼度量学习研究展开以下四个主要工作: (1)基于视频序列的线性子空间建模,提出了一种在格拉斯曼流形上的投影度量学习方法来解决视频-视频人脸识别问题。为了在以线性子空间为基本元素的格拉斯曼流形上进行判别学习,该方法提出一个从原始的格拉斯曼流形到一个新的、更具判别性的格拉斯曼流形的映射学习框架。为了求解这个度量学习问题,该方法采用类Fisher准则来定义相应的目标函数,并开发黎曼共轭梯度优化算法。 (2)基于视频序列的双阶统计量建模,提出了一种跨欧氏-黎曼度量学习框架来同时解决三种不同的基于视频的人脸识别问题,即视频-图像、图像-视频和视频-视频人脸识别。该方法采用双阶统计量(即均值和协方差)对视频数据进行建模,进而将这三种视频人脸识别问题统一形式化成欧氏数据和黎曼数据的匹配/融合问题。为了解决这一问题,该方法提出了一个统一的基于多视判别学习的异质度量学习框架将异质数据映射到一个公共子空间,从而实现了跨异质空间的距离计算。 (3)基于视频序列的高斯分布函数建模,提出了一种在对称正定矩阵流形上的对数欧氏度量学习方法来解决视频-视频人脸识别问题。该方法借鉴经典的信息几何理论将高斯概率模型所在的空间嵌入到一个特定的对称正定矩阵流形上,并在此流形上推导出一个基于切空间映射的对数欧氏度量学习框架来学习更具判别性的对称正定矩阵对数。该方法通过优化所提出的基于LogDet散度的目标函数来学习新度量学习问题对应的类马氏矩矩阵。 (4)基于视频序列的多种统计建模,提出了一种混合欧氏-黎曼度量学习框架来有效融合样本均值、样本协方差和高斯模型这三种统计模型,从而更有效地解决视频-视频人脸识别问题。为了减少高斯模型所在的空间与其它两种统计模型的空间之间的异质性,该方法同样首先将高斯分布的空间嵌入到一个对称正定矩阵流形上,然后通过设计一个基于LogDet散度的目标函数来学习多个马氏矩阵,从而达到多统计模型的有效融合的目的。 综上所述,本文针对基于统计建模的黎曼度量学习在视频人脸识别上的应用开展了广泛和深入的研究,提出了一系列在特定黎曼流形上的黎曼度量学习方法。大量实验结果表明,本文提出的方法可以有效地提升视频人脸识别的性能。