论文部分内容阅读
图像集是指由一组同属于相同类别的图片构成的集合(如视频片段),是多媒体数据的重要载体之一。图像集分类是计算机视觉和模式识别中的基础研究方向,是图像和视频理解领域的重要信息处理技术,在智慧城市等人工智能场景中有着广泛的应用。以图像集为对象的分类算法旨在对图像集的数据结构和语义信息进行表示学习,从而实现对其所属类别的正确判定。经过二十几年的研究和发展,研究者们相继在理论、方法以及数据集等三个维度丰富了图像集分类的研究范畴,激发了对该方向深入探索的研究活力。尽管图像集相较于单幅静态图像涵盖了由姿态、视角、光照、运动速度以及背景等变化而导致的物体表观差异,如何对上述复杂的数据分布信息进行合理地编码,以及如何有效地度量图像集间的相似性,已成为该领域当前所面临的主要难题。近年来,随着以黎曼几何为基础的流形学习方法在视觉数据的非线性表征中展现出的优异性能,图像集分类领域的主要研究手段也侧重于这一方面。具体来说,基于浅层黎曼流形学习的图像集分类模型在传统机器学习算法的基础上通过引入黎曼度量学习等判别分析理论,提升了分类的精度;而深度神经网络范式在黎曼流形范畴的推广提供了较之传统手工特征更加有效的几何语义信息,进一步改善了分类的准确性和鲁棒性。本文在黎曼流形学习的基础上,深入分析了浅层方法和深度模型在表示学习过程中存在的不足,从数据建模、网络架构以及目标函数三个方面提出解决思路,并设计有效的实施方案。本文主要的研究工作概括如下:(1)提出了基于多流形联合表征和多核度量学习的图像集分类算法。考虑到不同的黎曼流形所蕴含的统计信息具有互补性,从多流形联合表征的视角对图像集数据进行建模,克服了单一的黎曼流形特征信息量有限的问题。对于抽取到的多种结构化特征,利用设计的多核度量学习框架,并结合注意力机制,不仅缓解了数据在跨域融合过程中出现的结构信息扭曲问题,同时也增强了所学特征的判别能力,提升了分类准确性。(2)提出了基于轻量级对称正定(Symmetric Positive Definite,SPD)流形神经网络的图像集分类算法。针对浅层学习模型表征能力有限、迭代优化耗时的问题,通过在SPD流形上构造一个轻量级的黎曼神经网络,并结合设计的黎曼特征修正模块、池化模块以及核判别分析算法,实现了对SPD矩阵的多级非线性学习和判别性分类。此外,基于双向二维主成分分析技术的无监督权值优化机制简化了模型搭建,提升了计算效率。(3)提出了基于SPD流形深度度量学习的图像集分类算法。在原有SPD流形神经网络(SPDNet)的基础上,针对由数据的多级压缩映射而诱发的结构信息退化问题,通过在SPD流形上构造一个新颖的黎曼自编码网络,并结合设计的度量学习正则化项以及重构误差项进行端到端联合训练,增强了隐含层特征的信息量。此外,上述目标函数为交叉熵损失项提供了用于描述特征分布的互补性监督信息,提升了分类准确性。(4)提出了基于深度SPD流形神经网络的图像集分类算法。分析已有黎曼网络的构建范式,利用Stiefel权值矩阵的半正交性特点,在SPDNet(主干网络)的输出端构建了一个堆叠式的黎曼自编码模型。在多个重构误差项的连续监督下,每一个黎曼自编码器的映射机制都将逼近于恒等映射,从而能够有效地克服深度黎曼网络的信息退化问题。此外,为设计的黎曼网络引入了两阶段度量学习,进一步强化了分类准确性。