基于候选区域的两阶段深度目标检测模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dong_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度卷积网络在计算机视觉领域的兴起,基于深度网络的目标检测模型逐渐成为目标检测领域的主流方法。特别地,基于候选区域的两阶段深度目标检测模型将目标检测问题转化为对候选窗口的分类以及位置回归问题,并取得了优越的检测性能。两阶段深度目标检测模型可分为候选窗口模块(第一阶段)与ROI(Region of Interest)处理模块(第二阶段)两个部分。对于一张输入图片,候选窗口模块首先会从中产生数百个候选窗口,ROI处理模块会对这些窗口进行分类判断它们是否包含物体,同时对窗口位置进行精炼以保证窗口与真实标注窗口间具有更高的Io U(Intersection over Union)。尽管两阶段目标检测模型在目标检测领域取得了很大的成功,但依然存在如下问题,例如:1)训练过程中,候选窗口模块无法从ROI处理模块得到任何关于候选窗口位置的反馈信息;2)ROI处理模块对候选窗口的特征提取过程无法对物体形变进行有效的建模;3)ROI处理模块的损失函数均等的对待所有候选窗口样本,无法保证高效训练。本文主要针对这些具体问题展开研究,并提出有效解决这些问题的方法。具体地,本文的研究内容如下:(1)针对训练过程中候选窗口模块与ROI处理模块无法反向通信的问题,本文设计了候选窗口反向位置交互模块。该模块通过记录从锚窗口到候选窗口产生的整个过程,同时设计独特的反向位置交互ROI池化在ROI处理模块与候选窗口模块之间建立了一条关于候选窗口位置的反向交互路径。此反向交互路径的主要作用是实现ROI处理模块对候选窗口位置信息的求导,并将导数回传。在对此导数的计算过程中使用了大量的图像信息,这也就意味着候选窗口能够在训练过程中直接通过图像内容进行位置学习,如此较大提升了训练过程的有效性。在PASCAL VOC与MS-COCO数据集上的实验结果表明,候选窗口反向位置交互模块能够有效地提升不同的两阶段目标检测模型的检测性能。(2)针对ROI池化无法有效处理物体形变的问题,本文设计了形变子网络来对物体形变进行建模。该形变子网络能够有效地将传统DPM(Deformable Part Based Model)方法引入深度网络,其主要分为两个部分:形变系数模块以及形变池化模块。形变系数模块负责生成形变系数,而形变池化模块会将候选窗口分成不同的小区域,然后借助形变系数计算形变损失从而在不同的小区域中寻找不同物体部位的最佳匹配位置。通常情况下,形变子网络会设置不同小区域的中心点为基准位置,然后依托此基准位置计算形变损失。为了进一步提升形变子网络的性能,本文进一步地设计了升级版形变子网络,其能够通过网络为不同小区域生成基准位置。实验结果表明形变子网络能够通过物体部位匹配来解决形变问题,并且能帮助不同两阶段目标检测模型提升检测性能。(3)针对深度网络难以对物体形变进行有效建模的问题,本文设计了形变模板网络。该形变模板网络能够在深度网络中使用模板对目标物体进行表示。模板会将物体分成不同的部位,不同物体部位会以一种可形变的方式在空间上进行组织,如此则能够有效地对物体形变进行建模。相比于形变子网络,形变模板网络更为灵活也更为有效。形变模板网络主要分为两个模块:模板产生模块以及部位匹配模块。模板产生模块主要负责为目标物体产生模板,而部位匹配模块会基于此产生的模板来对物体不同的部位进行匹配。匹配过程会同时考虑物体部位的检测得分以及物体部位的形变损失。在PASCAL VOC与MS-COCO数据集上的实验结果表明,形变模板网络能够取得很好的目标检测性能。(4)针对ROI处理模块损失函数均等对待所有候选窗口样本的问题,本文设计了区间标准化加权策略。本文首先将对MS-COCO验证集检测结果的假阳性检测窗口数量与真阳性检测窗口数量设置为评价指标。然后分析了不同加权策略对于这两个评价指标的影响。在此基础上,本文进一步地提出了区间标准化加权策略。该区间标准化加权策略可以分为两个子策略:基于Io U区间划分的标准化加权策略以及基于前景得分区间划分的标准化加权策略。这两个子策略分别负责对负样本以及正样本的加权。在MS-COCO数据集的实验结果表明基于Io U区间划分的标准化加权策略能够有效地降低假阳性检测窗口数量,而基于前景得分区间划分的标准化加权策略则能够在高Io U阈值下有效地提升真阳性检测窗口数量。更重要的是,区间标准化加权策略主要应用于训练阶段,其不会对基础模型的检测效率有任何的影响。综上所述,针对基于候选区域的两阶段深度目标检测模型在不同阶段所存在的主要问题,本文提出了能够解决这些问题的更有效的目标检测模型。在PASCAL VOC与MS-COCO两个主流目标检测数据集上多角度的实验分析验证了本文所提出目标检测模型的有效性。目标检测是计算机视觉领域的应用基础研究,很多的计算机视觉任务都要在目标检测的基础上完成。本文的研究工作能够有效提升目标检测的检测性能,对于计算机视觉的发展具有重要的现实意义。
其他文献
双钢板混凝土组合结构由外侧钢板、核心混凝土并通过剪力连接件组成,因其充分发挥了钢板拉伸性能好和核心混凝土受压能力强的特点,目前常用于船体结构、石油平台甲板、AP1000核电站等。本文针对现有的双钢板混凝土组合墙板进行改进,通过起拱的方式形成拱形组合墙板结构,作为抗冲击抗爆的防护墙板。本文开展了拱形双钢板混凝土组合墙板的静力及冲击性能试验研究,以此为基础并结合有限元数值仿真及板壳理论进行承载力及冲击
学位
随着载人飞船、空间站、对地观测等航空领域的迅速发展,国内外发射了大量的航天器,如我国仅在2020年就陆续完成了北斗组网、火星探测、嫦娥探月等任务。但伴随着航天器的发射量日益增多,以航天器碎片为主的太空垃圾迅速增多。尽管世界各国开始研发太空垃圾回收技术,但目前在太空环境中还有数以百万计的太空垃圾,这些太空垃圾严重威胁在轨航天器的正常运行。相对于已有的空间飞网、太空鱼叉、具有捕获性能的微型卫星等可应用
学位
当下全球能源需求版图深刻变革,航空航天、新能源、通信等科技领域飞速发展,大数据中心、工业互联网等智能化数字化体系不断完善,热量管理扮演着越来越重要的角色。高性能的热量管理要求传热的功率密度和效率同时达到较高水平,沸腾可以通过液体相变的汽化潜热带走大量的热,普遍认为是实现这一目标的有效途径。传统的池沸腾发生在较深的池水内部,气泡的生长与脱离频率相对较慢,使得传热效率不够高,无法满足高性能散热的发展需
学位
报纸
传统的空间机器人往往搭载一个或多个刚性臂,难以兼顾目标捕获与受限空间作业等要求,尤其是无法进入狭小空间或无法在多障碍环境中开展灵巧操作。这一方面是由于传统空间机器人搭载的机械臂的自由度数少不易实现臂形的调节以完成灵巧操作,另一方面是由于传统机械臂的驱动电机和控制器集中于关节处使得机械臂结构尺寸较大,在多障碍环境中极易与障碍物发生碰撞从而导致无法开展灵巧操作。为了解决上述难题,本文结合刚性臂和绳驱柔
学位
报纸
目标跟踪作为计算机视觉领域中一项重要任务,旨在根据第一帧中的目标信息,自动定位后续帧中的目标。虽然现有的跟踪算法取得了跟踪性能上的提升,但是这些算法仍存在局限性,在实际跟踪场景中的跟踪效果并不理想。现有的跟踪算法主要有两个方面的局限性:观测模型不完善的学习过程和离线训练的网络模型不能有效地适应在线测试数据。基于以上问题,本文研究核心是探究观测模型的学习过程,提升观测模型的感知能力,并挖掘离线训练的
学位
在机器人与环境对象接触作业中,刚度调节的快速响应对提高作业的安全性和柔顺性具有重要意义。变刚度关节由于其刚度的可调性和固有的物理柔顺性,得到学者们广泛关注。当前已有的变刚度关节设计方案,仅从电机控制角度实现刚度的快速调节,但该种方式在加减速较大时会对电机增加额外负担,甚至会对电机及减速器造成损害。本文基于杠杆原理,设计可同时调节杠杆支点和弹簧的位置的变刚度关节,保证刚度调节机构的紧凑性,实现刚度快
学位
分数阶微积分是整数阶微积分的推广。因其阶数为非整数而具有非局部特性,分数阶微积分对刻画具有记忆和遗传特性的动力学系统具有准确性,这些系统大量地出现在力学、物理学、医药学、环境科学、图像处理和金融市场等领域。然而,绝大多数的分数阶方程不可能得到解析解,因此,研究分数阶方程的数值解法是一个重要的课题。本文基于半正交B样条小波及其尺度函数求解几类分数阶方程,包括线性多项分数阶常微分方程、非线性分数阶微分
学位
光性能监测技术,是光通信网络中的关键共性技术,在模块及系统层面提供了重要的故障诊断与性能感知能力,进而支持链路的智能选择和网络资源的优化配置,提高了数据传输的效率和稳定性,为光网络的智能化升级提供了有力保障。现有的光通信性能监测方案主要技术缺陷在于监测维度不足与格式依赖性。随着复杂通信设备和先进调制技术的应用,来自于不同维度的系统损伤相互耦合难以分离。已有方案由于缺乏有效损伤解耦方案,存在监测维度
学位