论文部分内容阅读
视频序列中的行为分析与识别是模式识别和计算机视觉领域中一个重要的前沿研究方向。这方面的研究和进步有助于构建一个智能化的系统和网络,例如智能机器人、智能视频监控系统、海量视觉数据的物联网网络等。行为识别是指让计算机从摄像机记录的视频数据中自动识别出人们感兴趣的行为事件。它涉及模式识别和计算机视觉领域中两个根本性的问题:(i).行为数据的视觉描述,以及(ii).行为模式的时空建模与学习。前者是模式识别领域中的本质问题:行为的模式究竟是什么?以及如何从视频数据中提取出有效的行为模式?后者与行为数据的结构属性和动态属性相关,它要解决的关键问题是如何从复杂的行为数据中学习出判别性的行为模型。
近年来,许多研究人员在行为分析与识别方面做了大量的工作。代表性的工作为局部时空兴趣点特征(如STIPs,Cuboids特征等)以及基于词袋模型(Bag-of-Features)的行为描述。局部时空特征能够在特征提取阶段避免一些预处理操作,如背景提取,身体建模以及运动估计等,并且对摄像机运动和光照变化具有一定的鲁棒性。它们还可以构成行为的稀疏描述(如利用词袋模型),有效地嵌入到高级的机器学习框架中,如支持向量机(SVM)。因此,被广泛地应用于行为识别中,并在一些人工和真实场景取得了较好的识别结果。但是,上述方法也存在两个严重的问题:(i).局部时空特征仅仅描述有限区域的局部信息,不仅描述能力有限,而且与包含不同语义层次的复杂行为类别之间存在较大的语义鸿沟;(ii).基于局部时空特征的描述,如词袋模型,通常丢弃了特征之间空间上、时间上的相互依存关系。而局部特征之间的时空上下文依存关系为行为识别提供了非常重要的线索,是不容忽视的。
本文针对上述问题,进行了深入的研究和探索,完成了如下几个研究工作。首先,在行为数据的视觉描述方面,本文提出了2种中层时空特征:
1.提出了一种基于中层行为部件的行为特征。行为部件特征是一种中层的特征,其设计目的在于克服局部时空特征描述能力不足的问题。本文将行为部件特征定义为空域上具有外观一致性、时域上具有运动一致性的时空部件,它能够描述具有一定语义属性的中层子行为事件,诸如“踢腿”、“挥手”等。我们采用自下而上的策略,从底层特征开始逐层聚类、提取出更高层次的特征:首先从每帧视频图像中提取关键点特征;然后通过跟踪相邻帧之间的关键点特征以得到一系列运动轨迹特征;最后根据运动轨迹在表观和运动上的相似性,将这些运动轨迹特征聚到不同的聚类中心。我们将每个运动轨迹聚类作为一个中层的行为部件特征,用来描述具有结构一致性和时间一致性的时空部件。此外,我们分别提出了一个表观描述子、形状描述子和运动描述子,以描述行为部件特征在表观、形状、运动方面的信息。与其他相关方法相比,行为部件特征具有如下特点和优势:(i).与局部时空特征(如STIPs,Cuboids特征)相比,行为部件特征具有更强的判别力,它不仅能够描述身体部件的外观特性(表观和形状信息),还能描述其一定阶段的运动特性;(ii).相对于抽象的、概念化的中层特征,行为部件特征具有具体的物理意义和语义属性;(iii).我们的算法能够自动生成中层的行为部件特征,不依赖于人体模型或其他复杂的模型;(iv).关键点特征、运动轨迹特征以及行为部件特征这三种不同层次的特征,形成了对视频数据分层的特征描述。在富于挑战性的复杂行为数据库UT-Interaction Dataset上的实验结果表明本文提出的行为部件特征的行为分类结果优于经典的局部时空特征。
2.提出了一种具有较强描述能力的时空特征流特征。时空特征流特征的设计目的,一方面是克服局部时空兴趣点特征和运动轨迹特征的各自不足,并很好地结合它们的优点;另一方面,是对时域上具有依存关系的局部特征进行建模,以描述行为数据时域上的动态属性。时空特征流特征是一种判别力较强的中层特征,它包含一组可跟踪的时空兴趣点特征和一组稳定的间隔运动特征,这些局部特征对应于某个目标或部件长阶段运动过程中不同阶段的局部运动信息。时空特征流特征的计算过程如下:给定一个图像序列,(i).首先提取出运动目标完整的运动轨迹特征;(ii).通过计算运动轨迹极值点的方法检测出运动急剧变化的兴趣点;(iii).在兴趣点的邻域内计算局部时空特征,并且计算兴趣点之间的稳定间隔运动;最后,(iv).使用一个链式模型来描述上述两种特征在时域上的演化关系。基于链式模型,我们提出了一种基于一阶马尔可夫假设的链式描述子,以灵活地描述时空特征流上不同局部特征之间的时域关系。实验结果表明,与经典的局部时空特征相比,本文提出的时空特征流特征的行为分类结果具有显著的提高。值得指出的是,本文还提出了一种计算可跟踪的局部时空兴趣点的方法。根据我们掌握的知识,本文的方法是目前唯一提出的建立局部时空兴趣点时域关系的计算方法。在行为模式的时空建模与学习方面,本文着重考虑了特征之间的时空上下文关系:
3.提出了一种基于时空共生关系模型(Spatio-Temporal Co-Features,STCF)的行为建模方法。STCF模型在联合的特征空间中考虑局部特征之间成对的(Pairwise)共生关系,然后结合特征之间的时空关系(Spatio-Temporal Relationships)将联合特征空间划分为若干子空间,以提高联合特征的判别性。基于STCF模型,我们采用了“Bag-of-Co-Features”的方法对行为进行描述。试验结果表明,STCF模型以及“Bag-of-Co-Features”模型能够提高传统的“Bag-of-Features”行为识别系统的性能。
4.提出了一种时空上下文内核(Spatio-Temporal Context Kernel,STCK)模型。在STCK模型中,两个行为的相似性不仅依赖于行为数据的局部属性,还依赖于局部特征之间二阶、甚至高阶的时空交互信息。具体地说,STCK目标函数由三个部分组成:局部项、邻域项和规则项。通过最小化上述能量函数,STCK迭代地计算和传递局部特征之间的相似性,并扩散到更大的上下文区域,从而提高了局部行为特征的匹配精度,进而提高行为识别的准确率。此外,STCK是一种半正定的内核,适合于嵌入到SVM、Adaboost等学习和分类任务中。