论文部分内容阅读
目标检测是计算机视觉的一个重要领域,它在当前很多热门领域如自动驾驶汽车,计算机辅助医疗诊断,交通情况监测当中都有着广泛的应用。目标检测是一个从整体到局部的过程,在这个过程中,输入图像被采样出多个区域样本,形成巨大的采样空间。由于前景样本的稀疏性,使得采样空间中绝大多数样本是背景样本,导致目标检测问题中悬殊的前景、背景样本比例,限制了检测精度的进一步提升。在基于区域的目标检测器中,区域建议阶段以及其它依赖于区域建议阶段的后续采样策略的使用有效地降低了采样空间中背景样本的数量,提升了目标检测的精度。在深度卷积神经网络应用于目标检测领域的初始阶段,检测精度普遍不高,基于区域的目标检测器因其在检测精度上的优势,被广泛研究和应用,在目标检测领域中处于主导地位。随着目标检测精度的稳步提升、目标检测需求向移动端和嵌入式设备转变以及主流应用场景对检测速度的要求日益提高,目标检测任务的瓶颈由较低的检测精度变为较慢的检测速度。基于区域的目标检测器受限于庞大的模型和缓慢的检测速度,其实际应用受到了很大的限制。相比于基于区域的目标检测器,一致过程目标检测器放弃了区域建议阶段的使用,获得更快的检测速度。一些先进的一致过程目标检测器甚至可以达到实时目标检测的要求,在近年受到了广泛关注。但放弃使用区域建议阶段也带来了负面影响:一致过程目标检测器需要处理更大的采样空间,更悬殊的前景、背景样本比例。严重的前景、背景样本不平衡问题导致一致过程目标检测器的检测精度难以提高。现有部分工作致力于利用采样方法优化一致过程目标检测器的检测过程并取得了一定的成果,但是它们多依赖于特定的结构或者是损失函数形式,当前很多前沿的一致过程目标检测器,例如YOLO系列目标检测器,无法使用此类方法提升检测精度。本文针对一致过程目标检测器中通用采样优化方法的空白提出了LRM(Loss Rank Mining)方法。首先,我们分析了采样优化在基于卷积神经网络的目标检测器中的发展过程,通过将采样优化方法后置,使得一致过程目标检测器的原始结构得以保持,进而维持了一致过程目标检测器的速度优势。其次,我们分析了一致过程目标检测器的结构特点,使用输出特征图来完成采样优化,其在一致过程目标检测器中是普遍存在的、用来表示预测结果的结构,保证了LRM方法在一致过程目标检测器上的通用性。第三,我们将LRM方法设计为训练策略,在预测过程中不引入任何额外的计算量,在保证预测速度不变的前提下,提升了检测精度。最后,前景样本因其稀疏性在检测器模型上表现往往较差(成为困难样本),我们据此建立了前景样本和困难样本的联系,通过采样困难样本使检测器在训练中更关注前景样本。实验证明,LRM方法在多个数据集上有效地提升了主流一致过程目标检测器的检测精度。本文通过分析目标检测任务的不同子任务的特点以及在不同输入的情况下困难样本的分布情况,针对现有的基于一致过程目标检测器的采样优化方法定位精度不高以及对不同输入数据适应性不好的缺陷,引入注意力机制以及数据驱动思想设计了ALRM(Adaptive Loss Rank Mining)方法。它从两个方面提升模型鲁棒性,进而提升了模型的检测精度:一是通过在采样时增加模型对定位任务的注意力,使模型更加关注定位精度差的样本,进而提升总体检测精度;二是对于不同的输入图像,根据区域样本的损失函数值分布以自适应的方式采样区域样本,提升了模型对不同输入图像的鲁棒性,进而提升了整体的检测精度。同时,ALRM避免了超参数的使用,能够使用单一模型适应不同的数据,也使得模型的训练过程变得更加简单,提高了实用性。实验证明,ALRM方法在多个数据集上对主流一致过程目标检测器检测精度的提升效果均超过其他现有方法带来的精度提升。