基于排序损失函数的一阶目标检测算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:deqiangranran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测算法是计算机视觉中非常关键的技术,并且它作为基础算法被用在相当多的应用场景和研究领域中。在本篇论文中,我们提出了一种创新性的目标检测器训练方法。由于一阶目标检测器的训练通常是同时优化分类损失函数和位置损失函数,前者由于锚点数量大而导致了极端的前景-背景类不平衡问题。本文提出了一种新颖的框架,用排序任务代替一阶目标检测器中的分类任务,并采用平均精度损失函数(AP-loss)来作为排序任务的目标函数,由此来解决这一问题。但由于排序损失函数的不可微性和非凸性,其无法直接用常规方法优化。为了解决这个难点,我们提出了一种新的优化算法,该算法将感知机学习中的误差驱动更新方案与深度神经网络中的反向传播算法结合。我们在理论上和实验上对本文提出的算法的良好收敛性和计算复杂度进行了深入分析。实验结果表明,与现有的基于AP-loss的优化算法相比,我们的优化算法在解决目标检测中的不平衡问题方面有显著改进。并且在多个数据集上,相比于最新的基于分类损失函数的一阶目标检测器,我们提出的AP-loss表现出了可观的性能提升。不仅如此,我们所提出的训练框架对不同的检测器与网络结构也具有高度的通用性。
其他文献
语义分割是一种细粒度的场景理解任务,在自动驾驶、计算影像等众多应用中起着至关重要的作用。随着深度学习的发展,基于深度模型的语义分割算法也取得了重大的进步。但是由于语义分割需要像素级别的精确标注,相较于分类模型极大地提升了标注的难度和成本,也限制了语义分割任务在新场景的应用和扩展。为此,本文探究在弱监督情况下,即如何在降低数据标注的数量或者质量的情况下,保证分割模型的效果。针对语义分割任务中图像标注
智能驾驶中车辆检测技术这一核心环节,在自主导航、碰撞检测等应用中有着重要的地位。通过输入的传感器数据,车辆检测算法提取环境中的特征,实时检测环境中的车辆目标及其空间位置以及车辆目标当前的姿态,从而合理地对车辆前进路线进行规划。虽然在现有研究下,已经有部分较为成熟的车辆检测算法,但这些算法仅能在光照等环境条件理想的情况下实现车辆检测,并且由于激光雷达本身的限制,远距离目标的点云数据十分稀疏,极大地影
“儿童的发现”是教育史上的“哥白尼革命”,儿童和成人一样,是权利的持有者,是知识的创造者,是积极的行动者。师幼关系作为幼儿园重要的人际关系之一,对儿童的发展有着深远的影响。因此,了解儿童是怎么看待师幼关系的、儿童对当前的师幼关系是否满意、儿童期望的师幼关系是什么样,对于建立良好的师幼关系、促进儿童发展有着重要的意义。本研究选取了30名大班儿童作为研究对象,利用专门研究儿童视角的马赛克方法,将观察、
高速公路建设项目的竞争越来越激烈,高速公路建设施工运营机制和市场管理也发生了巨大的变革,受外部环境和各项因素的制约,建设施工安全问题日益突出,不同程度地增加了建设施工的风险。基于此,文章剖析了高速公路工程施工安全风险管理的意义,制订了完善的应对策略,为同类工程施工奠定了坚实的基础。
随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。
现有的基于内存的分布式计算框架比如Spark和Tez,会使用内存去缓存中间结果。缓存为这些框架提供了很好的支持,可以大幅度地提升分布式处理引擎的处理速度。因此,分布式内存处理引擎的性能和缓存的功能息息相关,在一些场景下,缓存甚至成为了性能提升的瓶颈。然而,现有的系统中一般使用的是最为简单也最为常用的缓存策略,即最少最近缓存策略(LRU)来对缓存进行管理。虽然LRU有很多良好的性质,比如代价开销小,
视频中的行人跟踪与计数是计算机视觉方向的重要研究领域。近期,基于相关滤波(CF)方法在视觉目标跟踪任务上展示出良好的性能。然而,基于相关滤波方法的模型往往面对模型退化问题:当学习率较低时,模型的更新过程跟不上跟踪目标的巨大变化、变形,或者快速移动。而高学习率时,跟踪模型则对于如遮挡干扰不够鲁棒。为了跟踪模型能够有效地应对此类变化,必须确立一个渐进式更新机制。我们使用了一个内插模型利用原有数据中的时
近年来,计算机自动读取医学影像并辅助医生进行诊断成为热门。计算机辅助诊断系统可以极大地减轻医生读片负担,缓解医疗资源分布不均衡的问题。近年来深度学习的迅速发展和计算机视觉领域的广泛应用为进一步提升计算机读片的准确性提供了参考。由于某些疾病的特殊性,很多病灶在医学影像上的特征并不明显。患者与健康人之间的差异较小,同一种病灶在不同患者的影像中也可能展现不同的特征,这就使得自动诊断系统在区别患者与健康人
视频作为重要的信息载体,与我们生活的联系日益密切。现如今,人们可以随时随地拍摄和分享视频。然而手持摄像设备拍摄的视频会受抖动问题的困扰,从而给视频观看者带来不适。因此需要对抖动的视频进行稳定化处理,即视频稳像。另外,视频稳像技术也可以用于其他视频处理过程的预处理步骤,例如目标检测、视频压缩等等,提高这些任务的准确性和鲁棒性。目前的视频稳像算法能够在一定程度上处理抖动的视频,但仍存在一些问题。此外,
人脸表情识别作为人脸识别中的关键一环,在自动化人脸分析的研究领域中不可或缺。基于人脸表情识别技术的市场正在蓬勃发展,在人机交互、社交网络建模、智慧医疗、智能通信、自动驾驶等领域,人脸表情识别技术已经成功转化为市场认可的产品或服务。更多的应用场景也在探索中,其中,教育领域是一个尚未充分开发的潜在应用场景。对于计算机而言,人脸表情识别任务通常就是将图像或者视频帧分类到诸如生气、恶心、害怕、开心、伤心、