论文部分内容阅读
人体行为分析技术是计算机视觉研究的重点和难点。它在智能监控,人机交互等领域有着广阔的应用前景。目前大部分人体行为分析方法都是直接对图像或者视频中的底层特征作分析,例如形状,轮廓等。本文针对人体行为分析中的个体行为分析问题,提出了一种基于字典的字袋特征描述方法。利用字袋特征和主题分析算法将人体运动视频中的一种底层特征——时空兴趣点特征,转化为含有语义的高级特征——主题分布特征,使用主题分布特征对单人行为进行分析。并且在此基础上,用马尔可夫逻辑网对双人行为进行分析。
本文的主要的工作和特色如下:
1)针对传统的时空兴趣点提取算法会提取出噪声点的问题,提出了一种噪声点去除算法。噪声点是由于摄像机本身自带的噪声和相邻的帧的运动导致的。根据这两种情况,分别提出了设置阈值和去除前景以外兴趣点的方法来剔除噪声点。实验表明,在Weizmann数据库上,这种算法使得提取出的时空兴趣点数量减少约40-50%,但是并不影响最终异常行为分析的结果。
2)针对时空兴趣点的3D-sift特征提取算法运算量较大,不能满足异常行为检测的实时性问题,采用双核并行计算时空兴趣点的3D-sift特征。首先把视频中的时空兴趣点分给两个任务,双核并行计算每一个任务的时空兴趣点特征,最后把两个任务所得的结果结合起来。实验表明这种并行算法可以节省大约30-40%的运算时间。
3)针对时空兴趣点作为视频的底层特征,并不能给出视频语义特征的问题。把时空兴趣点看作单词,用字袋模型将视频文件演变成文档,然后采用自然语言处理中的pLSA算法和LDA算法提取该“文档”的潜在主题特征。实验表明,潜在主题作为视频特征含有部分语义信息。
4)针对双人交互行为分析的问题。首先将双人行为分解为两个单人行为,然后使用一阶逻辑推理模型,通过对两个单人行为的推理得到双人行为的类别。与传统的推理算法相比,马尔可夫逻辑网不仅能给出命题是否成立,更能给出命题成立的概率。因此使用该模型对双人行为进行概率推理,不仅能得到双人行为的类别,还能得到双人行为属于某类的概率。最终实验在UT数据库下进行,取得了一定识别率。