基于深度学习的视频动作识别算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xong916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着智能手机与网络通信的发展,视频逐步成为信息的主要载体。相比与静态图片,视频携带的信息更为丰富,表达能力更强。面对海量的视频数据,如何利用有效的手段对其进行分析,挖掘其中的价值成了当下亟待解决的问题。本文重点关注视频动作识别这一任务,针对复杂视频中的运动表示问题和常见动作类别之间的层级关系,分别设计了基于特征融合与时序编码器的单流网络模型和基于层级认知模式的视频动作识别模型。  本文的主要研究成果和贡献如下:  第一,针对复杂场景下光流无法准确表示视频运动的这一问题,本文提出了一种基于特征融合与时序编码器的单流神经网络模型。这一模型通过特征融合策略将视频帧的浅层表观与深层语义相结合,获取更有判别力的视频帧特征表示;同时利用时序编码器,对一组有序的视频帧特征表示进行整合,得到一个同时包含浅层表观、深层语义以及时序相关性的视频运动特征表示。在YLIMED数据集上的实验结果显示,本文新提出的模型在复杂场景下良好的完成了对视频运动的建模,分类性能相比现有方法至少提升了2%。  第二,本文模仿人类由粗到细的层级认知方式,设计了一个适用于卷积神经网络的层级模块。该模块以一组特征作为输入,首先在粗粒度层面进行一次预分类,并依据这一预测信息,指导生成空间热力图,完成对输入特征在空间区域的特征选择,强化对分类结果起到重要作用的区域,并根据这一结果指导后续的特征提取过程。实验结果表明,在常用的视频动作识别数据集UCF101上,引入层级模块后,其分类性能提升了约6%。
其他文献
随着互联网的飞速发展,网络已逐渐成为反映社会舆情的重要载体之一。近年来,对网络舆情进行倾向性分析已逐渐成为学术界的一个热点问题,其中涵盖了自然语言处理、信息检索、信息
近年来,随着计算机技术的迅速发展和互联网应用的广泛普及,图片信息资源正急速膨胀,人们对图片信息检索的需求也日益扩大。如何迅速有效地搜索到所需要的图片信息--基于内容图像
随着科技的发展,因特网应用的不断普及,网络规模的日益扩大,网络结构变得越来越复杂。如何保证网络设备安全、可靠、高效地运行,成为一个急待解决的问题。优秀的网络管理软件
覆盖率对于软件测试有着非常重要的作用,它是用来度量测试完整性的一个手段。通过覆盖率数据,可以知道测试工作是否充分,测试的弱点在哪些方面,进而指导我们设计能够增加覆盖率的
随着多媒体信息技术的膨胀,传统的检索方法已经不能满足发展的需求。自1992年基于内容的图像检索的概念提出之后,已经得到了国内外信息领域科技人员的广泛重视和研究,成为多媒体
随着互联网应用的高速发展,网络安全受到越来越多的重视。国内大部分网上银行系统都采用验证码作为保障网络安全的一种手段。验证码是一种人机区分技术,其本质是创建一个用户容
第四代VoIP乎叫中心在很大程度上是为因特网服务的,其功能更加强大,应用范围更加广泛,同时对座席平台的分布式部署和快速开发能力提出了新的要求。本文总结了本人研究生阶段
使用真实设备教学的过程中经常有一些危险的、破坏性的实验,并且设备价值昂贵、容易损坏,使得这种教学方式无法普及。随着虚拟现实仿真技术的发展,使用交互式三维仿真课件教学的
近年来,随着通信网络的扩容和多媒体技术的迅速发展,基于无线网络的多媒体应用尤其是视频应用得到飞速发展,视频业务的普及提高了用户对视频业务质量的要求,用户希望能够随时随地
众所周知,我国油气勘探领域的数据处理具有数据量大、计算时间长的特点,并行处理技术日益引起石油地球物理界的广泛关注,如何高效并行处理大规模地震数据已成为亟待解决的重大课