视频行为识别关键技术研究

来源 :武汉大学 | 被引量 : 2次 | 上传用户：a67273271

【摘要】

：

视频中人物行为识别的任务是利用计算机自动处理和分析输入的视频片段,根据视频中人物的姿态、动作的变化、场景等信息判别人物行为的类别。视频行为识别技术可用于智能监控

【作者】

：

李红阳

【出处】

：

武汉大学

【发表日期】

：

2019年01期

【关键词】

：

行为识别字典学习卷积特征融合注意力模型强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频中人物行为识别的任务是利用计算机自动处理和分析输入的视频片段,根据视频中人物的姿态、动作的变化、场景等信息判别人物行为的类别。视频行为识别技术可用于智能监控系统、视频标记与检索、智能看护、人机交互等领域,具有广泛的应用前景。视频行为识别研究的科学价值在于发现影响机器识别人类行为的因素及相互关系,找到适合表达视频中人物行为的表示模型,探索求解优化模型最优解的算法。此研究方向日益成为计算机视觉领域的研究热点。受相机参数、场景复杂、个体差异等因素的影响,视频行为识别依然面临许多挑战。基于深度特征和手工特征的表示是目前行为识别最常用的表示方式,基于两种表示的行为识别方法均存一些不足:由于行为节奏存在差异、人物在视频帧中的位置存在随机性,现有等间距帧采样和随机图像块采样不能确保始终聚焦于感兴趣区域,存在无效样本过多的问题;面向局特征的编码过程中,现有的无监督字典学习未充分利用视频标记信息,字典构建较为盲目,存在字典判别力较弱的问题;光流和图像信息是行为识别中的主要信息来源,现有多特征拼接或线性叠加的方式未充分利用特征的空间同步信息,存在特征表示能力不足的问题;针对这些问题,本文从视频采样、特征编码和特征融合三方面展开研究,主要研究内容及成果如下:(1)基于注意力机制与强化学习的视频采样深度卷积网络在处理视频时,通常采用固定间距对连续帧进行采样,再对帧中的图像块进行随机采样。这种采样的方式不能确保采样到与行为密切关联的视频帧和图像块。针对这一问题,本文提出了指导关键帧和关键图像块采样的注意力模型,该注意力模型根据已经观察到的视频信息,通过神经网络自主学习来估计下一个关键帧相对于当前帧的位置和下一个受关注的图像块的相对位置;最后应用强化学习算法实现了模型的求解。实验表明,本文提出的注意力模型能较好地指导视频采样,提升了行为识别的性能,优于传统的采样方式。(2)基于多示例学习与判别字典的特征编码基于局部特征表示的行为识别方法需要对局部特征进行字典编码、池化才能得到视频的全局表达。现有局部特征的字典学习采用无监督学法,字典的构建具有盲目性,导致字典的判别能力较弱。针对这一问题,本文提出了面向局部特征的判别字典学习和编码算法。该算法假定同类别视频中的每个局部特征集合中存在相似的特征,而这些相似特征在其他类别的局部特征集合中不存在;基于这一多示例假设,我们将学习到的分类器作为字典的码字;为进一步提升字典质量,在基于多示例的判别字典学习算法中还引入交叉验证策略和限制每个集合中正示例数量的策略。实验表明,利用本文提出的算法得到的字典进行编码,行为识别的性能优于其他传统的算法,并能与其他算法得到的编码融合,实现互补。(3)基于卷积特征图与门通机制的特征融合光流特征表达人物的运动信息,图像特征表达人物的外观信息,两种特征的组合是行为识别中最常用的方式。光流分布主要集中的人体的运动部位,这些区域的外观信息是行为识别的关键。现有的融合方式要么忽略了光流与图像之间的空间同步信息,要么只是简单的进行线性叠加,没有充分利用光流信息来指导图像特征的提取;随着感知区域的扩大,高层卷积特征会忽略低层中的细节信息,而细节信息对视觉差异较小的类别辨识非常重要。针对这一问题,本文提出的基于光流场特征的门通模型,利用光流卷积特征来生成控制门,实现对图像信息的筛选,从而获取与运动密切关联的细节特征,并将这些特征与初始的光流特征和图像特征通过循环网络进行融合。实验表明,利用门通机制获取的特征与原有光流和图像特征融合后能有效提升系统的性能。本文通过借鉴人类视觉感知和认知的机理来解决视频中人物行为的分类问题,在视频分析和理解领域的基础理论和关键技术方面进行了探索性研究,并取得了一些创新性成果。

其他文献

浅谈数字人文背景下的高校图书馆发展策略

高校图书馆作为信息传递的主要场所之一,数字人文的深入发展,是推动高校图书馆的主要途径。通过介绍数字人文的作用和机理,提出了整合图书馆数字资源,丰富图书馆知识服务形态

期刊

高校图书馆数字人文发展策略

河北省区域经济增长的差异分析

20世纪90年代以来，河北省经济保持了持续、快速的增长态势，但由于存在传统生产力布局的不同，以及地理位置、技术、资源和政策的差距，各个地市间发展不平衡状态正日益凸显，经济发展

期刊

区域经济增长河北差异分析20世纪90年代以来经济发展过程稳定增长生产力布局增长态势

广义测不准关系与黑体辐射

介绍了位置与动量的广义测不准关系,得到了位置的最小不确定度,与此相应的微观状态的态密度必须作出修正,该修正对当前前沿科学所遇到的许多问题将产生广泛的影响.例如对黑体

期刊

广义测不准关系黑体辐射量子态Quantum theoryRadiation

昆布复合饮料生产工艺的研究

以昆布为材料,采用单因素试验和正交试验的方法,以色泽、风味、组织状态为评价指标确定最佳工艺方案,制备香气浓郁,具有保健功能的荷叶昆布复合饮料。昆布汁的制备的优化条件

期刊

昆布荷叶复合饮料

成人学习基本特点分析

从成人学习认知规律的微观层面,分析成人学习心理、学习的先决条件、学习动机、学习能力等基本特点,有助于认识成人学习的基本规律.

期刊

成人学习特点分析

Littlewood-Paley算子的交换子在Hardy型空间的加权有界性

引入了一类由Littlewood-Paley算子和BMO函数构成的交换子,并利用原子分解的方法证明了该交换子在Hardy型空间上的加权有界性.

期刊

LITTLEWOOD-PALEY算子交换子BMO(R^N)HARDY空间BlockLittlewood-Paley operator Commutat

浅谈规模化蛋鸡的养殖方法

现代密集型、规模化养鸡模式造成鸡的各种疾病呈高发趋势,传统上的预防控制方法、措施存在一定缺陷。养殖者应主动采取积极有效的综合防治措施,以＂治未病＂理念来处理鸡群的各种

期刊

鸡养殖效益综合预防

市政工程道桥施工管理措施研究

随着城镇化的推行，市政工程道桥施工的规模越来越大，其质量的高低与全民的生活息息相关，因此对其的要求也逐渐提高。加强市政工程道路施工管理，是保证施工质量，降低工程成本的重要

期刊

市政工程道桥施工管理

利用活性炭处理铬黑T实验室废液的试验研究

选用活性炭对低浓度铬黑T实验室模拟废液进行脱色处理，通过活性炭用量、活性炭浓度，搅拌时间、pH值等变量，进行脱色率的试验。通过设计正交实验选出的最佳脱色条件为：活性炭用量1

期刊

活性炭铬黑T实验废液吸附

关于发电厂电气部分设计的几点思考

在我国经济飞速发展的今天,电能在我们的生产、生活中起到了不可或缺的作用,发电厂发电装置的优劣以及发电应用技术水平的高低对电能输出量及电能质量产生至关重要的影响,而

期刊

发电厂电气部分设计

视频行为识别关键技术研究

与本文相关的学术论文