基于视频序列的人体行为检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hongxing35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视频的人体行为检测在目前来说是一项极具挑战性的任务,同时其潜在应用众多,包括智能安防,视频自动裁剪等。行为检测目标是将视频中的动作序列分离,找到属于动作的时间区域,并将其做行为识别,找到其动作类别。本文主要以当前的二阶段行为检测网络为基础,从特征提取方面以及行为定位算法和后处理算法上对该问题进行了研究与改进,具体内容如下:(1)基于目前行为识别的结果来看,视频特征提取主要集中在3维卷积(C3D),双流法和膨胀的3维卷积方法(I3D),本文对三种特征提取方式均进行了实验,并将获得的三种特征用在后续的行为定位网络和整个行为检测网络中,并最终确定I3D特征提取网络作为本论文的特征提取网络。(2)本文对行为检测的瓶颈部分,即行为定位算法部分进行了分析,并在当前基于边界的时序行为定位算法的基础之上做出改进。具体来说,在边界匹配网络中对其特征从通道维度和特征维度使用了注意力机制,并运用不同的组合方式,将通道注意力和时序注意力进行融合,将特征提取网络得到的特征在时间维度和通道维度上进行交互建模。实验证明,在此种特征建模方式之后,能得到召回更高的Proposal,对整个行为检测过程中也能取得更高的平均精度均值(mean Average Precision,m AP)。同时,还设计了时序上的空洞时间金字塔池化(Atrous Temporal Pyramid Pooling,ATPP)结构,将不同空洞大小的卷积层在同一层使用,旨在提升网络对长短动作检测的泛化性能。除了上述建模方式,本文还探究了图卷积在时序特征上的运用,将图卷局(GCNext)模块运用在特征建模上,对比了上述建模方式的性能优劣。(3)本文针对二阶段的行为检测过程中容易出现的问题进行了分析,并给出解决方案。比如生成提名(Proposal)过程中出现的正负样本不均衡问题,采用在线困难样例挖掘(Online hard example mining,OHEM)训练方式解决。另外在Proposal去重阶段对比了更加优秀的后处理算法,soft-NMS和softer-NMS算法。同时,针对网络中出现的一些超参数,比如对于特征在时序上的截取采用的滑窗长度,本文也进行了实验分析。基于以上,本文在Thumos14上,对上述提到的改进点和研究点进行了对比实验。本文最终使用的是基于I3D特征提取网络的特征,使用带ATPP结构的时序注意力模块和通道注意力模块对该特征重新建模,最后采用当前最为先进的去重复算法对生成的Proposal进行过滤,达到了更好的效果,并且对实验结果进行了分析,实验结果也充分说明上述改进效果的有效性。本文提出的改进方法,在基础网络之上提升很大,最终在mAP@0.5指标上在Thumos14行为检测数据集上取得了41.8%的成果。最后,对本文的研究内容也进行了一定的思考和拓展,同时也对视频行为检测方面未来的发展进行了探讨和展望。
其他文献
2D人体姿态估计是计算机视觉中的基础但是又具有挑战性的问题。姿态估计的目的是定位出人体的二维平面的关键关节点的坐标(例如:头部,肩膀,脚踝等等)。它有非常多的运用,例如:行为识别、游戏娱乐、电影姿态捕捉、人再识别等等。人体姿态估计是一个早在上个世纪70年代就开始研究的课题,但是人体姿态估计一直难以达到可以应用的水平。随着大规模数据集Image Net以及卷积神经网络Alex Net等的兴起,卷积神
近年来,随着计算机图形学和计算机视觉技术的发展,虚拟现实技术(Virtual Reality,VR)在动画制作领域、游戏领域、影视领域的应用日渐广泛,写实风格的三维人脸模型也更多地出现在上述领域中。三维人脸模型一般由美术人员手工制作,制作过程繁琐且耗时。为了高效快速地建立写实的三维人脸模型,基于单幅照片(Single-View image)的三维人脸重建技术成为了热门的研究课题。现阶段主流的人脸重
分置天线多输入多输出(Multiple-Input Multiple-Output,MIMO)雷达的发射接收天线空间间隔较远,拥有传统雷达不具备的波形分集增益和空间分集增益,可以显著提高雷达的目标检测以及参数估计等系统性能,因此引起了广泛的关注和研究。传统的雷达目标参数估计算法计算复杂度高且不可控,在复杂多变的实际环境中,根据实时接收数据自适应估计参数的性能也是有限的。深度学习具有强大的实时处理数
随着机器学习和深度学习在图像处理领域取得了较大的突破和较好的效果,许多研究者开始将深度学习应用在图像处理的各个问题上,图像超分辨率重建就是其中一个经典的问题。如何将卷积神经网络应用在图像超分辨率重建上,使得重建出来的图像能具有较好的人眼观感、较丰富的细节和更接近真实图像的效果,是研究者所需要解决的重点。此外,当前的卷积神经网络进行超分辨率重建时所需要的重建时间和网络消耗的运算、存储资源都较大,不能
滤波器作为一种二端口网络,具有特定的频率选择特性在近代电信设备和各类控制系统中,滤波器的应用极为广泛,其性能的优劣往往影响着整个通信系统的质量。随着射频及微波技术的不断发展,电磁波频谱资源变得日益紧张。所以无线通讯系统对滤波器的指标和性能都提出了新的要求。例如高选择性、体积小易集成、功率大损耗小等。基片集成波导(Substrate Integrated Waveguide,SIW)兼具矩形波导Q值
随着第五代移动通信的到来,人们的生活也变得日益多彩。用户通过终端上各式各样的软件享受着科技带来的便捷的背后是传输数据量的不断增多。为了提高通信系统的传输容量,通信频带已经拓展到毫米波频段。随着通信频率的升高,晶体管封装参数对功率放大器性能的影响越来越大,同时键合金丝对射频电路性能的影响也变得不能忽略。因此,如何消除金丝对功率放大器匹配电路的影响以设计宽带高效率功放值得海内为学者去探索。针对上述问题
随着技术的进步,近年来飞行器已经朝着智能化,微型化的方向发展。仿生扑翼微型飞行器作为近年来飞行器研究领域的热点,具有质量轻、体积小、机动性强、隐蔽性高等特点。优良的仿生性能使其拥有广阔的应用场景,众多研究者也围绕仿生扑翼微型飞行器开展了大量的研究工作。扑翼微型飞行器的研究涉及了众多的学科领域,包括机械,电子,控制以及人工智能相关的知识,研究的最终目标就是能够设计出一款融合多学科、能够自主飞行的扑翼
随着光电技术的发展,光电探测器现如今已经成为各行业重要的基础元件之一。光电探测器将待测光信号转化为电信号,经过放大器的电信号可以用来表征待测光信号的大小。在测量微弱光信号时,外界噪声干扰和不确定因素会影响测试结果,因此光电探测系统的可靠性与精确性是保障光电探测器正常工作的必要条件。由于光电探测器覆盖的光谱范围极广,从200nm的紫外探测器到14微米的长波红外探测器都各有各的用途,而市售的光电探测器
非合作目标的侦察是包括安防、数字化城市等众多领域数字化、智能化系统的重要基础。进行非合作目标侦察往往使用多种探测手段,其中摄像机由于符合人眼视觉、纹理信息丰富;厘米波雷达由于可全天候、中远距离探测且性价比较高,这两种探测源得到较为广泛的应用。基于雷达和视觉的协同侦察具有侦察范围广、直观便捷、信息量大的特点,能极大提高系统的检测识别跟踪能力。本文针对雷达和云台(Pan-Tilt-Zoom,PTZ)摄
随着现代传感器分辨率的提高,目标往往占据多个传感器分辨率单元,传感器能够获取到关于目标的信息也变得更加丰富,但简单的点目标模型不足以处理这些目标信息从而面临巨大挑战,迫切需要更加复杂的扩展目标模型对目标状态进行准确估计。扩展目标往往会产生多个量测值,传统基于数据关联的点目标滤波模型不足以应对扩展目标带来的计算复杂度问题。近年来,随着对随机有限集(Random Finite Set,RFS)理论的深