基于特征增强的视频目标检测方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:eddiew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习及卷积神经网络的发展,视频目标检测任务在实际应用中展现出巨大的发展潜力,如智能视频监控、自动驾驶等,受到学术界和工业界的广泛关注。近年来,研究者们将先进的目标检测框架拓展到视频目标检测领域,但面临两个挑战性问题,即目标多尺度和形变异常。目前大多数研究极少同时考虑这两个问题,导致检测效果未能满足实际需求。本文围绕视频图像存在的目标多尺度和形变异常等问题研究视频目标检测方法,从特征增强的角度提出两个针对性的模块,建立基于特征增强的视频目标检测框架。本文的主要工作包括以下三个部分:1)提出尺度感知模块,应对视频目标多尺度。该模块是一个轻量级的网络结构,由一组具有参数约束的膨胀卷积层和一个缓冲卷积层组成。该模块仅通过控制膨胀系数即可改变卷积的感受野,从而灵活地获取多种尺度的目标信息,并保证较低的计算开销。2)提出双分支RoIs(Region of Interests)特征提取模块,解决视频目标的形变异常。该模块主要包括位置敏感RoIs特征提取分支和上下文敏感RoIs特征提取分支,分别提取具有目标细节信息和上下文信息的RoIs特征,并将这两种RoIs特征以点乘的方式获得融合的RoIs特征。3)提出基于特征增强的视频目标检测框架,旨在平衡检测精度和检测速度。该框架将所提的两个特征增强模块融入先进的目标检测模型,利用光流网络建模视频帧间的时序信息,并采用多帧聚合策略协助改善视频目标的形变异常。实验表明,本文构建的视频目标检测框架在Image Net VID数据集上获得了77.9%m AP(mean Average Precision),比单帧检测器R-FCN提升了5.9%。
其他文献
当前,我们经济社会正发生的巨大的变化,随着发展的不断加快,各类社会矛盾日益凸显。在此背景下,传统的社会治理模式已不能适应当前的新形势、新问题,亟待进行创新。针对这一
气动肌肉关节能模仿动物关节运动特性,具有本质柔顺性,可增强四足机器人环境适应能力,但气动肌肉关节转动范围小,关节力矩难以测量与控制,限制了四足机器人的运动能力。具体
学位
车载自组织网络(Vehicular Ad-hoc Networks,VANETs)作为智能交通系统的重要组成部分,为解决道路通行效率和车辆安全行驶等关键问题提供了灵活且快速的数据传输支持。然而,车
随着时代发展,汽车在我们的生活中越来越普及,随之由汽车导致的交通事故量也迅速增加,而事故发生最主要原因是由驾驶人员的不良习惯与违法操作所导致。其中车辆压线是最为常
视觉检索任务(Visual Grounding,VG)的目的在于通过一句自然语言的查询,去定位一张图像中与该查询语句最相关的物体或区域。通常来说,为了完成这一任务,我们需要一个模型去理
光学乐谱识别主要研究如何将乐谱图像形式到计算机可识别语义符号。其中谱线删除是重要模块之一,谱线删除算法的优劣直接影响光学乐谱识别系统的最终结果。特别是手写乐谱图像,由于手写音符形式复杂多变,同时叠加各种变形和噪声,使谱线识别和删除尤为困难。因此,研究手写乐谱图像中的谱线删除具有重要的理论意义和实用价值。为了提高谱线删除算法的鲁棒性,本文提出一种基于多尺度多方向局部二值模式和XGBoost的手写乐谱
“十二五”期间,我国的污染物虽然完成了总量减排目标,但是当前的社会、经济的高速发展依然是建立在消耗环境资源的基础上,减排工作任重而道远。为了环境、经济的协调发展,需
在信息技术和互联网技术日新月异以及网络社交软件快速普及的今天,数字图像已经成为人们日常生活中重要的信息载体。然而,在实际工程应用中,由于拍摄设备、拍摄环境、传输处
数据源中存储了建立数据连接的所有信息,数据请求者通过提供正确的数据源名称来查找相应的数据库连接,以此获取数据库中的数据信息。在网络中,数据源内容主要存储在可受限搜