论文部分内容阅读
视觉模式识别是近年来计算机与信息科学领域的热点研究方向之一,也是图像与视频检索、视频监控、生物特征识别以及智能人机交互等应用的关键技术,对于人们的日常生活与工作具有重要意义和深远影响。本文以提出的七巧板模型为核心,对视觉模式识别中的表示与分类方法进行了研究,并将其应用于图像与视频高层语义内容的识别,具体包括图像中的场景分类、物体分类、物体显著性检测以及视频中的人体行为识别等任务,在理论和实际应用上均有重要意义。 首先,本文研究场景构型的表示方法,提出了一种基于形状组合与层次化组织结构的七巧板模型。基于规则几何形状的可组合性,该模型采用了一个层次化的七巧板基元字典及其与或图,作为场景空间构型表达的“量化空间”。在此基础上,提出了一种基于信息增益最大化和动态规划算法的学习方法,从大致对齐的训练图像中学习一个全局最优的解析树以及相应的七巧板模板,作为场景构型的显式表达。此外,进一步提出了一种基于样例聚类的学习方法来发现同一语义级别场景类中多个不同典型构型的七巧板模板。将学习到的七巧板模板构成一个构型字典,提出了一种基于构型属性的场景表示方法,并将其用于场景分类。实验结果表明,不论是对于构型类级别还是语义类级别的场景分类任务,基于七巧板模型的场景构型属性表示方法相对于传统的基于空间金字塔的词袋模型表示方法都表现出显著的分类性能提升。 然后,本文研究基于空间合并的视觉模式表示方法,并提出了基于层次化空间合并与偏最小二乘分析的图像分类系统、以及基于子块上下文空间合并的物体显著性检测方法。受七巧板模型启发,本文首先提出了一种层次化的有向无环图结构来组织“过完备”感受野字典。在此基础上,提出了一种高效的层次化空间合并算法对局部图像块码向量进行空间合并操作。此外,还进一步提出了一种基于偏最小二乘分析的图像表示学习方法对合并特征向量进行降维,以形成最终的图像特征表示用于分类。实验结果表明,本文提出的基于层次化空间合并与偏最小二乘分析的视觉模式表示方法在四个图像分类基准数据集(即Caltech101、Caltech256、Scene15和MIT Indoor)上都取得了高于传统的空间金字塔方法的分类性能。除了图像分类任务以外,本文还提出了一种基于子块的上下文空间合并方法,用于目标物体的视觉显著性检测。相对于传统的上下文空间合并方法,该方法能够挖掘和提取邻域图像块中不同空间方向的上下文信息,从而形成具有更强判别性的图像块合并特征表示。实验结果表明,本文提出的基于子块上下文空间合并方法在显著性检测基准数据集Graz-02的不同物体类上都取得了高于传统上下文空间合并方法的检测性能。 最后,本文研究基于匹配核的视觉模式分类方法,并提出了一种新的空间匹配核(即七巧板匹配核)用于图像的场景分类、以及一种推广时空金字塔匹配核用于视频中的人体行为识别。在七巧板匹配核中,本文基于七巧板模型来建构空间匹配核,相对于传统的空间金字塔匹配核能够利用更加灵活而丰富的构型结构信息来进行场景分类。实验结果表明,本文提出的七巧板匹配核在两个基准场景数据集(即Scene15和MIT Indoor)上都取得了高于空间金字塔匹配核的平均识别准确率,尤其对于复杂的室内场景分类问题显示出显著的性能提升。对于视频中的人体行为识别,本文提出的推广时空金字塔匹配核利用了多种不同类型的时空兴趣点特征描述子和不同分辨率的时空域金字塔网格信息来建构视频片段的相似度量。与传统时空金字塔匹配核采用固定的金字塔层级权重不同,本文提出了一种基于核目标对齐系数的方法来计算推广时空金字塔匹配核中时空域特征通道的权重值,使其能够利用训练数据中的判别信息。实验结果表明,本文提出的推广时空金字塔匹配核相对于传统的时空金字塔匹配核在三个不同的人体行为分类基准数据集(即Hollywood2、Youtube和HMDB51)上都能够有效地提升分类性能。