论文部分内容阅读
从视频中自动识别语义事件是计算机视觉研究的一个重要目标。并且在现实生活中,它还具有极其重要的应用价值。本文围绕着这个问题,提出了一种基于扩展随机文法的视频语义事件识别方法。具体而言,本文主要开展了以下几方面的工作:
①通过对运动轨迹进行分析,提出了一种基于场景语义点的原子事件自动学习方法。首先,通过语义场景建模或者人为指定,得到若干场景中的语义点;之后,通过轨迹聚类得到若干场景中基本的运动模式作为文法系统中的原子事件。在此,为了更有效的进行轨迹聚类,我们还对各种轨迹相似性测度进行了比较,并通过对各个相似性测度的应用背景进行考察,分析解释了实验结果。
②提出了一种基于最小描述长度(Mininmal Description Length MDL)准则的事件规则归纳方法。首先。我们将Allen的时间关系逻辑加入到原有的随机上下文无关文法(Stochastic Context Free Grammar SCFG)规则之中,用以表达子事件之间的并行时间关系;其次,基于“时空相似的事件优先组合在一起”的想法,我们利用一种多层规则归纳策略获取事件规则;同时,我们还提出了一种对事件规则和训练数据进行编码的具体编码方式,用以最小描述长度准则的具体执行。在广播体操场景和交通路口场景中的实验表明,所提出的规则归纳算法可有效的学习得到场景中复杂事件的内在结构组成关系,并将其表达为一系列的事件规则。
③基于这种扩展的随机文法规则表示,本文采用一种多线程文法分析算法(MultiThread Parsing MTP)。通过放宽组成分析状态的原子集约束,使得文法分析算法可以对子事件间的并行时间关系进行处理;通过一种类似Viterbi算法的噪声恢复机制,使得文法分析算法可以处理大尺度噪声,如删除噪声(deletion error)和插入噪声(insertion error)。在广播体操场景和交通路口场景中的实验表明,所提出的多线程文法分析算法可以有效的对视频中的复杂事件进行识别。
④我们还将所提出的基于扩展随机文法的事件识别方法应用于多人交互行为的识别。在此,与静止场景中原子事件获取方法不同,我们首先将每一个运动物体看作为一个局部相对坐标系;之后我们将其他运动物体的位置投影到这个局部坐标系中,通过对局部坐标系中相对位置点进行聚类,我们得到若干交互原子(interactionprimitive IP);最后,运动物体的交互行为可表达为不同局部坐标系中的多个原子事件串的联合(原子事件流),进而我们可以利用所提出的扩展的随机文法对原子事件流进行建模和识别。对五种交互行为的识别实验表明我们的方法取得了令人鼓舞的识别结果。