目标检测中交并比预测的改进方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhh6622692
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测是计算机视觉领域中的基础任务,旨在对图像或视频中的物体的进行分类与定位,在人脸识别、行人追踪、光学字符识别、对地目标追踪等领域具有重要价值。在基于深度学习的目标检测算法中,往往会先生成大量的包围盒,然后对这些包围盒进行排序和筛选。先前的算法默认采用分类分数作为排序和筛选的依据,但分类分数与包围盒质量相关性较低,无法代表包围盒定位质量。在目标检测算法中广泛采用交并比来衡量矩形之间的相似程度,因此研究者们提出预测包围盒和标签的交并比来代表包围盒质量。然而不合理的网络结构设计、特征与预测目标的不匹配限制了预测结果的准确性。本文针对这些问题开展了以下研究:(1)提出了串行结构的交并比预测网络。现有交并比预测方法都采用了并行的网络结构,同时进行交并比预测和包围盒定位修正。因而在预测交并比时无法获得准确的包围盒区域特征,引入了训练目标和推理目标不一致、特征来源和预测目标不一致、特征映射不稳定的问题。针对这些问题本文提出了一种先对包围盒进行回归修正,再预测包围盒交并比的串行网络结构。相比于并行网络结构,该方法能够在准确的包围盒特征基础上预测交并比,从而避免上述问题,提升预测结果的准确性。(2)提出了一种解耦交并比预测方法。该方法将直接预测包围盒的交并比拆解为预测包围盒的准确性和完整性两个指标,促使网络精细感知包围盒中物体已召回部分和未召回部分,从而提升预测交并比的准确性。该方法能够与任意结构的交并比预测方法结合提升其性能,并且不带来额外的计算量。基于这两种互补的改进措施,本文提出了结合串行和解耦思想的交并比预测方法。同时本文在一般目标检测、实例分割、旋转目标检测三个任务共八个基线算法上进行了实验,实验表明本文方法能够有效提升交并比预测的准确性,最终提升目标检测算法性能,并且能够适应不同的检测任务和网络结构,具有广泛的应用价值。
其他文献
驾驶员处于疲劳状态时判断力和反应能力明显下降,极易引发交通事故,对道路交通安全造成极大威胁。在驾驶过程中实时监测驾驶员状态并及时预警,可以有效保障行车安全。现有基于深度学习的疲劳检测算法大多倾向于通过不断增加网络深度和复杂度来达到更高的准确率,从而导致算法实时性欠佳,且模型无法直接部署至计算资源受限的移动端、嵌入式设备上。本文面向实际驾驶场景,研究基于面部特征的实时疲劳驾驶检测算法,并针对算法部署
学位
在计算机视觉领域中,多目标跟踪是一个非常重要的研究课题,其目的是得到视频中感兴趣物体的运动轨迹,包括每帧中代表物体位置信息的包围框和代表物体身份信息的编号。多目标跟踪有广泛的应用价值,是安防监控、自动驾驶、智慧城市等应用中的关键技术。多目标跟踪中包含目标检测、行人重识别等其他研究方向的技术,其中,目标检测常用来获取目标位置,行人重识别常用来得到目标的身份。多目标跟踪大多对行人进行跟踪,场景较为复杂
学位
三维点云分析是计算机视觉中的一个重要任务,其在人们的生产生活中有着极为广泛的应用,如自动驾驶,遥感制图,增强现实等。近年来,随着深度学习技术的不断进步,三维点云分析领域也取得了重大的突破。相较于传统的手工设计的三维点云分析算法而言,基于深度学习的三维点云分析方法在多个公开的数据集上都取得了更为显著的结果。在三维点云分析任务当中,提取有效的局部区域特征描述子以及充分挖掘各个局部区域之间的相关关系都是
学位
手写数学公式识别是文档分析领域中的一个非常重要的任务,在自动阅卷、数字图书馆、办公自动化等领域有广泛应用。近年来,随着深度学习的广泛应用,手写数学公式识别研究取得了快速的发展,尤其是注意力机制的引入大幅度提升了公式识别精度。但是大部分现有的基于注意力机制的手写数学公式识别算法在处理较长或者空间结构较复杂的数学公式的时候,依然存在一定的困难,容易出现注意力不准确的情况,从而导致漏掉符号、预测出重复或
学位
基于Wi-Fi指纹的室内定位技术在近些年得到了广泛地研究,主要集中于研究如何在独立模式下提高定位精度。有少量研究提出利用额外硬件设备进行用户间距离测量用以提升定位精度,但这增加了成本,限制了实用性。为解决这一问题,本文提出了一种隐式协同定位新模式,旨在挖掘同一区域多个用户的Wi-Fi信息来改进用户群体定位性能。本文对此类隐式协同定位进行了深入研究,提出了以下三种方法:(1)基于用户互距离估计的协同
学位
三维目标检测作为计算机视觉领域中重要的一部分,它在很多领域中起到了重要的作用,例如自动驾驶和智能机器人等领域。近些年,随着研究的不断深入,多个公开的三维目标检测数据集被提出,促进了三维目标检测技术的发展进步。基于三维视锥的方法是三维目标检测任务中一种具有代表性的方法,其通过二维目标检测框获取三维视锥点云数据,缩小了三维搜索空间。然而当前基于视锥的方法仍然存在特征提取能力不足和难以处理一个视锥中存在
学位
随着深度学习的不断发展,场景文本检测和端到端识别领域取得了较大的进展。然而现有算法主要关注于复杂形状、语种多样性等难点,却忽视了由场景文本形状多样性带来的昂贵标注成本。相比图片分类任务的Image-Net数据集(1419万张图片),场景文本任务常用的高质量真实数据集图片较少,通常仅有一千张左右。然而,在实际应用中,往往需要十万、甚至百万的真实数据进行训练才能取到较高的文本检测识别性能。因此,减少场
学位
在公共交通区域进行监控是提供可靠保障的必要措施,而行人作为监控视频中的核心,如何准确地识别出行人身份,及时了解场所中行人的身份变化成为一大挑战。同其他用于身份识别的生物特征相比,步态特征具有独特的优势,即在远距离或低视频质量情况下的可辨别能力,步态识别也因此成为研究热点。步态识别算法的常用输入数据是轮廓图,轮廓图主要展现的是人体的外观特性,而步态的特征不仅包含人体的外观特性,还包含行走过程中的运动
学位
在信息呈爆炸式增长的互联网时代,人们需要处理的数据日趋增多,往往通过自然语言处理(Nature Language Processing,NLP)中一项基础任务——命名实体识别(Named Entity Recognition,NER)从大量非结构化文本中挖掘出有价值的信息。该任务旨在提取文本中具有特定含义的实体并将其分类为预定义的类型,例如人名、国家名、军事武器名等。近年来大部分NER研究只针对文
学位
在城镇化快速发展过程中,人口流动愈加频繁,由于公共空间有限,大量人口的涌入引发的社会公共安全问题日益突出。特别是在公共场所,有可能引发严重的踩踏事故,危害人民群众的生命财产安全。因此,如何有效地预测场景中的人群数量已经成为了最近计算机视觉领域的热点研究问题。随着深度学习和计算机视觉的快速发展,许多密集人群数量自动估计(人群计数)算法陆续被提出。由于密集场景下给每个人头标注包围盒是费时费力的,因此大
学位