论文部分内容阅读
【摘 要】文中提出了一个基于光流和概率上下文无关文法的人的视频序列的运动行为的分析方法。首先,采用自适应混合高斯模型来提取背景,然后采用形态学方法确定目标前景的轮廓。使用光流确定视频序列中的关键帧,并对关键帧的前景轮廓进行概率上下文无关文法分析。
【关键词】人体行为识别 光流 概率上下文无关文法
一、引言
人的运动行为视觉分析是利用计算机技术,从包含人的视频图像序列中,检测、分类、跟踪人,并对其行为进行理解与描述[1]。由于其在视频监控,高级人机交互,虚拟现实,视频检索,体育运动分析,动画和游戏设计,医疗诊断等领域的广泛的应用前景,运动行为视觉分析已经成为当前计算机视觉的一个研究热点。
基于视频的行为分析主要包括行为的描述与识别两个基本问题[2]。行为描述方法根据分析对象的层次,可以分为基于低层图像信息的方法和基于高层人体结构的方法。基于底层图像信息的方法可以快速鲁棒地获取特征,但无法处理复杂的行为;基于高层人体结构的方法可以描述复杂的行为,但是特征获取比较困难。行为识别算法根据其处理方法的不同,分为基于模板匹配的算法和基于状态空间的算法。基于模板匹配的算法计算量少,但是对行为的时间间隔很敏感;基于状态空间的算法则需要复杂的模型训练。
目前,人的运行行为分析的研究仍然处于一个初级阶段,有很多困难难以解决,具体体现在[3,4]:复杂场景下行为的实时识别,上下境指导下的行为理解,多视角下行为的分析,不同系统的性能评估标准等方面。
本文提出了一个基于光流和概率上下文无关文法的人的视频序列的运动行为的分析方法。
二、算法描述
(一)背景的提取
在本系统中,采用自适应混合高斯模型来对背景建模。高斯背景模型是由Stauffer等人提出的经典的自适应混合高斯背景提取方法。根据视频序列中每个像素在时域上的分布情况,构建出各个像素的颜色分布模型,依次来达到背景建模的目的。混合高斯背景模型是有限个高斯函数的加权和,它能描述像素的多峰状态,适用于对复杂的背景进行准确建模[5-7]。
(二)通过前景轮廓的提取确定目标的姿态
自适应混合高斯背景提取出背景后,前景区域也可求出。不过,受噪声的影响,获得的前景区域不能直接使用,需要利用形态学的开闭操作减少前景噪声,并对现有的大量小区域进行前景连通,提取并合成轮廓,从而提取出感兴趣的目标轮廓区域,作为观测到的目标姿态[8]。
(三)行为的定义
在本文中,行为A被看作是特定场景下人的特定姿态的组合,其中为观测到的各种姿态。比如,“夹菜吃”这个行为,可以分解为以下一些姿态的有序组合:手握筷子——抬起手——筷子放到盘子上——筷子抬起——筷子放到嘴边——筷子放下。
在整个行为当中,描述筷子在空中这个阶段的视频帧很多,我们不必选取所有的帧,而只需要选择其中的关键帧,用于对行为的定义和描述。
(四)关键帧的提取
我们采用前景点的光流的平均值取极小值的那些视频帧作为关键帧[9]。对于视频帧,计算出它们对应的光流向量函数,定义前景点的平均光流偏差为:
其中是视频帧中前景点的数量,是视频帧中的平均光流向量。序列中的极小值对应的帧,即为关键帧。
光流是空间运动物体的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。对于前景点来说,运动的速度矢量变化越剧烈(表现为越大),表明前景物体的姿态越不稳定,处于过度阶段;运动的速度矢量变化越平缓(表现为越小),表明前景物体的姿态越稳定,该姿态在视频中占有的比例越大,也就越重要。因此,我们用的极小值作为关键帧选取的标准。
(五)概率上下文无关文法分析
对于一个行为A,假设它由K个关键帧的姿态构成,。其中,的前景轮廓为。我们要根据提取出来的關键帧中的前景轮廓,分析判断该行为是否存在。
假设关键帧有l个,分别为,对应的前景轮廓为。则对应于姿态的概率定义为
其中为两个轮廓的匹配函数,两个轮廓包含区域相交部分的面积占比越大,匹配值越接近于1。
我们真正感兴趣的概率是,即。根据贝叶斯法则,有
简单起见,假定所有的都相同。
事实上,是无法求出来的,而该概率只体现在一个全局常量因子的计算当中。因此,我们忽略到,用来代替。
这样我们就构建好了一个概率上下文无关文法[9]。
建立好概率上下文无关文法之后,我们可以通过句法分析方法,求出最大概率的行为分析结果。
三、实验结果及分析
采用本文提出的算法,与本人按照文献[9]中的实现的算法,对相同的视频做对比,得到以下实验结果。(视频来源于Actions as space-time Shapes,http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html)
根据表1,可以得知,本文算法的正确率略低于文献9算法的正确率。目标运行的相对速度越慢,本文算法的相对准确率就越高。
根据表2,可以得知,本文算法的运行速度明显快于文献9算法的运行速度。
四、结束语
本文提出了一个基于光流和概率上下文无关文法的人的视频序列的运动行为的分析方法。相比较文献[9]当中的算法,本文算法增加了背景建模和前景轮廓处理,简化了概率上下文随机文法的内容,在正确率没有特别降低的条件下,使得运行速度大大提高。
尽管如此,本文算法的实际运行时间仍然过长(每个行为的分析超过2秒),远远没有达到实时行为分析的要求。而且,在当前的算法下,实际运行时间改进的空间不大。 要想实现对人的行为的实时行为分析,需要改进思路,使用别的方法。
参考文献:
[1] 凌志刚, 赵春晖, 梁彦, 潘泉, 王燕. 基于视觉的人行为理解综述 [J]. 计算机应用研究. Application Research of Computers, 2008, 25(9): 2570-2578
LING Zhi-gang, ZHAO Chun-hui, LIANG Yan, PAN Quan, WANG Yan. Survey on vision-based human action understanding [J]. Application Research of Computers, 2008, 25(9): 2570-2578
[2] 谷军霞, 丁晓青, 王生进. 行为分析算法综述 [J]. 中国图象图形学报, 2009, 14(3): 377-387
GU Jun-xia, DING Xiao-qing, WANG Sheng-jin. A survey of activity analysis algorithms [J]. Journal of Image and Graphics, 2009, 14(3):377-387
[3] 王亮, 胡卫明, 谭铁牛. 人运动的视觉分析综述 [J]. 计算机学报, 2002, 25(3): 225-237
WANG Liang, HU Wei-ming, TAN Tie-niu. A survey of visual analysis of Human Motion [J]. Chinese J. Computers, 2002, 25(3): 225-237
[4] 徐光祐, 曹媛媛. 动作识别与行为理解综述 [J]. 中国图象图形学报, 2009, 14(2): 189-195
XU Guang-you, CAO Yuan-yuan. Action Recognition and Activity Understanding: A Review [J]. Journal of Image and Graphics, 2009, 14(2): 189-195
[5] 黄鑫娟, 周洁敏, 刘伯扬. 自适应混合高斯背景模型的运动目标检测方法 [J]. 计算机应用, 2010, 30(1): 71-74
HUANG Xin-juan, ZHOU Jie-min, LIU Bo-yang. Moving objects detection approach based on adaptive mixture Gaussian background model [J]. Journal of Computer Applications, 2010, 30(1): 71-74
[6] 李全民, 张运楚. 自适应混合高斯背景模型的改进 [J]. 计算机应用, 2007, 27(8): 2014-2017
LI Quan-min, ZHANG Yun-chu. Improvement on adaptive mixture Gaussian background model. Journal of Computer Applications, 2007, 27(8): 2014-2017
[7] P. KaewTraKulPong, R. Bowden. An improved adaptive background mixture model for real-time tracking with shadow detection [C]// In Proc. Of 2nd European Workshop on Advanced Video Based Surveillance Systems. 2001: 149-158
[8] Shih F Y. Image processing and mathematical morphology: fundamentals and applications [M]. New York: CRC Press, 200
[9] A. S. Ogale, A. Karapurkar, Y. Aloimonos. View-invariant modeling and recognition of human actions using grammars. Dynamical Vision. Springer
作者簡介:
柏柯嘉,男,1974年7月,湖南,博士,视频目标跟踪、视频行为理解、图像处理、模式识别,讲师。
【关键词】人体行为识别 光流 概率上下文无关文法
一、引言
人的运动行为视觉分析是利用计算机技术,从包含人的视频图像序列中,检测、分类、跟踪人,并对其行为进行理解与描述[1]。由于其在视频监控,高级人机交互,虚拟现实,视频检索,体育运动分析,动画和游戏设计,医疗诊断等领域的广泛的应用前景,运动行为视觉分析已经成为当前计算机视觉的一个研究热点。
基于视频的行为分析主要包括行为的描述与识别两个基本问题[2]。行为描述方法根据分析对象的层次,可以分为基于低层图像信息的方法和基于高层人体结构的方法。基于底层图像信息的方法可以快速鲁棒地获取特征,但无法处理复杂的行为;基于高层人体结构的方法可以描述复杂的行为,但是特征获取比较困难。行为识别算法根据其处理方法的不同,分为基于模板匹配的算法和基于状态空间的算法。基于模板匹配的算法计算量少,但是对行为的时间间隔很敏感;基于状态空间的算法则需要复杂的模型训练。
目前,人的运行行为分析的研究仍然处于一个初级阶段,有很多困难难以解决,具体体现在[3,4]:复杂场景下行为的实时识别,上下境指导下的行为理解,多视角下行为的分析,不同系统的性能评估标准等方面。
本文提出了一个基于光流和概率上下文无关文法的人的视频序列的运动行为的分析方法。
二、算法描述
(一)背景的提取
在本系统中,采用自适应混合高斯模型来对背景建模。高斯背景模型是由Stauffer等人提出的经典的自适应混合高斯背景提取方法。根据视频序列中每个像素在时域上的分布情况,构建出各个像素的颜色分布模型,依次来达到背景建模的目的。混合高斯背景模型是有限个高斯函数的加权和,它能描述像素的多峰状态,适用于对复杂的背景进行准确建模[5-7]。
(二)通过前景轮廓的提取确定目标的姿态
自适应混合高斯背景提取出背景后,前景区域也可求出。不过,受噪声的影响,获得的前景区域不能直接使用,需要利用形态学的开闭操作减少前景噪声,并对现有的大量小区域进行前景连通,提取并合成轮廓,从而提取出感兴趣的目标轮廓区域,作为观测到的目标姿态[8]。
(三)行为的定义
在本文中,行为A被看作是特定场景下人的特定姿态的组合,其中为观测到的各种姿态。比如,“夹菜吃”这个行为,可以分解为以下一些姿态的有序组合:手握筷子——抬起手——筷子放到盘子上——筷子抬起——筷子放到嘴边——筷子放下。
在整个行为当中,描述筷子在空中这个阶段的视频帧很多,我们不必选取所有的帧,而只需要选择其中的关键帧,用于对行为的定义和描述。
(四)关键帧的提取
我们采用前景点的光流的平均值取极小值的那些视频帧作为关键帧[9]。对于视频帧,计算出它们对应的光流向量函数,定义前景点的平均光流偏差为:
其中是视频帧中前景点的数量,是视频帧中的平均光流向量。序列中的极小值对应的帧,即为关键帧。
光流是空间运动物体的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。对于前景点来说,运动的速度矢量变化越剧烈(表现为越大),表明前景物体的姿态越不稳定,处于过度阶段;运动的速度矢量变化越平缓(表现为越小),表明前景物体的姿态越稳定,该姿态在视频中占有的比例越大,也就越重要。因此,我们用的极小值作为关键帧选取的标准。
(五)概率上下文无关文法分析
对于一个行为A,假设它由K个关键帧的姿态构成,。其中,的前景轮廓为。我们要根据提取出来的關键帧中的前景轮廓,分析判断该行为是否存在。
假设关键帧有l个,分别为,对应的前景轮廓为。则对应于姿态的概率定义为
其中为两个轮廓的匹配函数,两个轮廓包含区域相交部分的面积占比越大,匹配值越接近于1。
我们真正感兴趣的概率是,即。根据贝叶斯法则,有
简单起见,假定所有的都相同。
事实上,是无法求出来的,而该概率只体现在一个全局常量因子的计算当中。因此,我们忽略到,用来代替。
这样我们就构建好了一个概率上下文无关文法[9]。
建立好概率上下文无关文法之后,我们可以通过句法分析方法,求出最大概率的行为分析结果。
三、实验结果及分析
采用本文提出的算法,与本人按照文献[9]中的实现的算法,对相同的视频做对比,得到以下实验结果。(视频来源于Actions as space-time Shapes,http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html)
根据表1,可以得知,本文算法的正确率略低于文献9算法的正确率。目标运行的相对速度越慢,本文算法的相对准确率就越高。
根据表2,可以得知,本文算法的运行速度明显快于文献9算法的运行速度。
四、结束语
本文提出了一个基于光流和概率上下文无关文法的人的视频序列的运动行为的分析方法。相比较文献[9]当中的算法,本文算法增加了背景建模和前景轮廓处理,简化了概率上下文随机文法的内容,在正确率没有特别降低的条件下,使得运行速度大大提高。
尽管如此,本文算法的实际运行时间仍然过长(每个行为的分析超过2秒),远远没有达到实时行为分析的要求。而且,在当前的算法下,实际运行时间改进的空间不大。 要想实现对人的行为的实时行为分析,需要改进思路,使用别的方法。
参考文献:
[1] 凌志刚, 赵春晖, 梁彦, 潘泉, 王燕. 基于视觉的人行为理解综述 [J]. 计算机应用研究. Application Research of Computers, 2008, 25(9): 2570-2578
LING Zhi-gang, ZHAO Chun-hui, LIANG Yan, PAN Quan, WANG Yan. Survey on vision-based human action understanding [J]. Application Research of Computers, 2008, 25(9): 2570-2578
[2] 谷军霞, 丁晓青, 王生进. 行为分析算法综述 [J]. 中国图象图形学报, 2009, 14(3): 377-387
GU Jun-xia, DING Xiao-qing, WANG Sheng-jin. A survey of activity analysis algorithms [J]. Journal of Image and Graphics, 2009, 14(3):377-387
[3] 王亮, 胡卫明, 谭铁牛. 人运动的视觉分析综述 [J]. 计算机学报, 2002, 25(3): 225-237
WANG Liang, HU Wei-ming, TAN Tie-niu. A survey of visual analysis of Human Motion [J]. Chinese J. Computers, 2002, 25(3): 225-237
[4] 徐光祐, 曹媛媛. 动作识别与行为理解综述 [J]. 中国图象图形学报, 2009, 14(2): 189-195
XU Guang-you, CAO Yuan-yuan. Action Recognition and Activity Understanding: A Review [J]. Journal of Image and Graphics, 2009, 14(2): 189-195
[5] 黄鑫娟, 周洁敏, 刘伯扬. 自适应混合高斯背景模型的运动目标检测方法 [J]. 计算机应用, 2010, 30(1): 71-74
HUANG Xin-juan, ZHOU Jie-min, LIU Bo-yang. Moving objects detection approach based on adaptive mixture Gaussian background model [J]. Journal of Computer Applications, 2010, 30(1): 71-74
[6] 李全民, 张运楚. 自适应混合高斯背景模型的改进 [J]. 计算机应用, 2007, 27(8): 2014-2017
LI Quan-min, ZHANG Yun-chu. Improvement on adaptive mixture Gaussian background model. Journal of Computer Applications, 2007, 27(8): 2014-2017
[7] P. KaewTraKulPong, R. Bowden. An improved adaptive background mixture model for real-time tracking with shadow detection [C]// In Proc. Of 2nd European Workshop on Advanced Video Based Surveillance Systems. 2001: 149-158
[8] Shih F Y. Image processing and mathematical morphology: fundamentals and applications [M]. New York: CRC Press, 200
[9] A. S. Ogale, A. Karapurkar, Y. Aloimonos. View-invariant modeling and recognition of human actions using grammars. Dynamical Vision. Springer
作者簡介:
柏柯嘉,男,1974年7月,湖南,博士,视频目标跟踪、视频行为理解、图像处理、模式识别,讲师。