论文部分内容阅读
图像视频数据是大数据时代十分普遍的数据类型,相应的聚类、识别问题亦成为计算机视觉、模式识别等领域的重要研究课题。由于图像视频均是高维的非结构化数据,具有复杂的内在属性和结构,传统基于欧氏距离度量的分析方法难以描述这种复杂的非线性结构。因此,探索图像视频等高维非线性结构数据的降维与表示,成为了图像视频数据聚类与分类的关键。近年来,借助流形表示理论研究高维非结构化图像视频数据的表示与降维问题取得了丰富的研究成果。然而,现有的流形表示方法难以精确保持数据的某些内在特性(如稀疏、低秩),无法有效融合多视角、多特征的图像视频数据,影响了图像、视频等高维数据在聚类、分类等应用方面的性能。基于上述考虑,本文面向图像视频的聚类任务,针对图像视频等高维非结构化数据的流形表示与降维问题,研究了图像视频数据的流形表示方法,建立了流形上低秩表示模型的一般框架,提出了不同流形空间上的低秩表示模型,给出了相应的优化求解方法,并实现了聚类应用。同时,针对流形数据表示维度高的问题,提出了高维流形数据的降维方法,即流形上的局部保持投影方法。本文的主要创新点如下:第一、针对现有欧氏空间的低秩表示模型无法表示高维图像视频数据内在的非线性结构问题,提出了一种Grassmann流形上的低秩表示模型,实现了对高维图像视频数据的高精度聚类。在研究Grassmann流形的性质和度量的基础上,提出了不同形式图像视频数据的Grassmann流形表示方法。在此基础上,研究并提出了Grassmann流形上不同度量下的低秩表示模型,即基于嵌入距离和切空间距离的Grassmann流形上的低秩表示模型,并解决了模型涉及的复杂优化问题,给出了高效的优化求解算法。在多个数据库上的测试结果表明,本文提出的Grassmann流形上的低秩表示模型较传统欧氏空间的低秩表示模型在图像视频数据集上的聚类性能具有显著提升。第二、针对现有SPD流形上的低秩表示模型因距离度量导致的复杂度高、效率低的问题,提出了基于Log-Euclidean度量的SPD流形上的低秩表示模型,实现了图像数据的快速、高精度聚类。在此基础上,研究了多种基于Hilbert核空间嵌入的SPD流形,建立了基于核度量的SPD流形上的低秩表示模型。图像聚类实验表明,基于Log-Euclidean距离的SPD流形与基于Hilbert核空间嵌入的SPD流形上的低秩表示模型比传统方法具有更高的精度和计算效率。第三、针对流形上多视视频数据的有效融合问题,提出了基于乘积流形的多视视频数据融合表示方法。具体地,针对多视视频数据,提出将多视角视频特征表示成同构乘积流形,以补充、融合多视角视频的特征信息;针对单视视频的多维特征,提出将各维度的视频特征表示成异构乘积流形,实现多种流形信息的融合,改进流形特征的表示能力。在此基础上,通过度量不同流形的重要性,提出了一种由数据驱动的异构乘积流形自适应融合框架。实验表明,乘积流形上的低秩表示模型比单视流形表示模型和现有多视欧氏空间聚类模型对外部环境变化的影响更具鲁棒性。第四、针对数据的流形表示维度过高而引起聚类、识别等算法时间复杂度高的问题,提出了一种Grassmann流形的局部保持投影降维方法,实现了从原始高维度Grassmann流形到低维度高判别性Grassmann流形的降维。该方法通过建立流形到流形的非线性映射,将传统的局部保持投影算法推广至Grassmann流形空间,使得降维后数据不仅具有Grassmann流形结构,而且还保留了原始高维Grassmann流形数据间的局部相邻关系,这样就提高了流形数据的判别性。实验证明,与原始高维数据相比,降维后的流形数据可以保持原始数据的判别信息,用于聚类、识别等应用能够获得较好的实验结果。