论文部分内容阅读
图像目标检测是计算机视觉领域的核心问题之一,也是高层语义分析的基础性问题,在智能驾驶、安防监控以及战场侦察等领域均有着广泛应用。近年来,随着深度卷积神经网络的引入,图像目标检测领域的研究取得了突破性进展,然而图像目标检测在实际应用中依然面临着一系列的挑战,例如:小目标检测、算法准确率和计算量的权衡、目标尺度变化范围较大和跨模态知识迁移等。本文以深度卷积神经网络为技术手段,从图像目标检测网络处理流程的角度,探索分步预测、渐近预测和单步预测等不同的信息利用方式,以追求既能增强检测率又能减少算法计算量的检测方法,主要研究内容及创新点如下:1、在双阶段目标检测框架下,本文提出一种基于反向特征增强和空间分布保持的分步预测检测方法,增强了检测器对目标尺度自适应的能力。具体而言,在检测器的第一阶段采用一种反向特征增强网络,将高层特征图逐层反向和低层特征图进行融合,使得低层特征图在保持较高空间分辨率的同时具备了较高的特征判别力,从而极大提高了小目标的召回率;其次,在检测器的第二阶段采用一种空间分布保持网络,该网络结构能够在不断抽象目标区域特征的同时保留特征的空间分布信息,从而提高了目标候选框的定位精度。综合以上两点,我们提出的检测器克服了传统双阶段检测框架特征判别力不足的劣势,尤其展现了其在小目标检测上的优越性。2、在单阶段目标检测框架下,本文提出一种基于多层特征图的渐近预测检测方法,在基本不增加算法计算量的情况下极大提高了检测率。具体而言,本文提出一种渐近定位拟合模块,该模块使得“锚框”能够在不断优化中逐步逼近真实目标位置,既克服了检测器训练过程中正负样本定义的两难问题,又使得检测器在测试过程中得到的检测框的定位精度更高,我们通过大量的实验证明了这种模块设计的有效性,在此基础上,我们还研究了如何发挥该模块的最大性能优势,并证明了该模块的有效性不受限于任何基础CNN网络。我们的检测器克服了传统单阶段检测框架检测率低的劣势,并保持了算法处理速度上的优势。3、从抛弃“锚框”设计的思路出发,本文提出了一种基于目标中心点定位的单步预测检测方法,解决了常规检测算法中繁琐的“锚框”设计无法覆盖大范围目标尺度变化的问题。具体而言,本文将目标检测任务构建为一个语义特征点检测问题,即通过共享卷积直接预测目标的中心点,并证明只要辅以目标尺度预测,检测器就能够很好地完成目标检测任务。我们通过大量验证性实验全面剖析了该方法的优势和缺陷,并着重检验影响算法性能的关键因素。尽管结构简单,该方法在行人检测、人脸检测、车辆检测,以及Pascal VOC 20类通用目标检测上都取得了优异表现。我们的检测器避开了传统检测器中“锚框”设计的问题,对大范围的目标尺度变化表现出了非常好的适应性,向简洁高效的目标检测器迈出了坚实的一步。4、为了完成无标签数据训练情况下的红外图像目标检测,本文从特征表示和样本数据两个角度探索从可见光图像到红外图像的跨模态知识迁移,通过对比分析二者的检测性能,提出了一种自适应网络迁移学习方法,成功将可见光图像检测器用于红外图像目标检测。具体而言,一是从“特征表示”的角度,我们探索了一种自适应网络迁移学习策略,让网络在学习过程中将提取的红外图像特征图逼近提取的可见光图像特征图,以达到迁移已训练好的可见光图像检测器知识的目的。二是从“样本数据”的角度,我们探索利用对抗生成网络将有标签的可见光图像生成对应的伪红外图像,并利用这些生成的伪红外图像训练检测器,进而在测试集的红外图像上进行测试。我们的实验表明,特征层面上的知识迁移比数据层面上的知识迁移更有优势,其所带来的检测性能可以接近于有监督学习得到的基准性能。最后,我们对以上研究工作进行了总结,并对未来值得探索的研究方向进行了梳理。