基于深度学习的视频行为识别技术研究

来源 :电子科技大学 | 被引量 : 20次 | 上传用户:haibei007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益成熟,特别是移动互联网应用的推广以及智能手机、数码相机、监控摄像头等拍摄设备的普及,视频日益成为人们日常生产生活中不可或缺的媒体形式,视频业务呈现快速发展趋势。日益增长的视频数量,良莠不齐的视频内容无疑给视频的存储、分析、监管带来了前所未有的压力。深度学习在计算机视觉领域展现了巨大的优势,在视频描述、图片细粒度识别等一系列应用场景实现了传统方法难以企及的效果。因此本文采用一系列常用的深度学习网络模型,通过挖掘视频的时空融合特性,引入类比于人类视觉的注意力机制,改进基础深层LSTM模型,研究精准高效的视频行为分析技术。与传统行为识别技术不同的是,深度学习技术展现出强大的特征提取能力,能够针对任务学习到自适应、区分度高的特征。为了研究基于深度学习的视频行为分析技术,论文所做的工作总结如下:首先从视频的时空融合特性出发,分别提取视频的空间特征和时间特征,融合成为时空融合特征。然后借鉴人类视觉系统的注意力机制,提出基于注意力机制的时空融合模型。从视频片段整体出发,通过给视频片段中的关键帧分配更大的权重,让模型的注意力集中在视频片段的关键帧部分,减少视频内容中冗余信息对视频行为分析的干扰。然后为了提升基础深层LSTM网络模型的性能,提出了基于快进连接的时空融合模型和时域多尺度时空融合模型。通过优化深层LSTM网络中的信息传播和挖掘时域多尺度下视频内容的特征,进一步提高基础深层LSTM网络模型的识别性能。最后在UCF-101和HMDB-51数据集上,采用TensorFlow对基于注意力机制的时空融合模型、基于快进连接的时空融合模型、时域多尺度时空融合模型进行实验分析。实验结果表明,本文提出的基于注意力机制的时空融合模型、基于快进连接的时空融合模型、时域多尺度时空融合模型可以提高视频行为识别的准确率,同时对以上三种模型还分析了在具体某一类视频内容上的识别准确率,对基于注意力机制的时空融合模型分别选取了两段视频内容进行了注意力可视化分析。
其他文献
统计分析某油库罗斯蒙特雷达液位计显示系统的故障类型,确定主要原因并采取相应的整改措施。整改投用后,雷达液位计显示系统的故障频率显著降低。
为合理分配高精度单向测速系统中各种误差源引入的测速误差指标,本文分析了电离层、对流层和多路径引入的系统测速误差,进行了仿真并定量地给出了相应的测速误差量级,对高精
目的:了解某社区人群颈椎病相关知信行现状,以及对颈椎病预防保健知识的需求,为开展社区人群颈椎病的健康教育提供合理的科学依据。方法:采用入户方便抽样,对160名社区人群进
目的:应用CBCT研究中老年人下颌第一磨牙髓室高度与年龄的相关性,为临床精准治疗提供参考依据。方法:选取本中心影像科资料库中210例(男、女各半)CBCT影像,按照年龄分3组(A:4
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨肝硬化患者凝血因子和血小板参数变化与肝脏受损严重性的关系。方法选择乙型肝炎肝硬化患者45例,酒精性肝硬化患者52例和正常对照者40例,使用全自动血细胞计数仪检测血
运用中药健儿清解液治疗200例小儿上呼吸道感染,对照组100例采用对症治疗.结果:治疗组的痊愈率为80%,总有效率为92%,两者皆明显高于对照组(48%、75%),均P<0.01.
虚拟现实技术的快速崛起,展现出其应用在各个领域中的巨大可能性。本文简述了虚拟现实技术的定义和特点,并探讨其在院前急救工作中的应用潜力,同时对虚拟现实技术存在的问题
<正>三跟映前宣传不同,映间解说主要结合影片放映过程中具有特殊意义的某些关键之处,插入适当的解释和说明,用以帮助观众更好地理解影片中的人物关系、故事情节和主题思想;包
本文介绍了都江堰灌区用水者协会的发展状况,通过比较用水者协会在建设规模、机构设置、灌区管理、协会运营等方面的异同点,分析用水者协会自成立以来的成效和不足,提出都江