论文部分内容阅读
目标检测作为当下计算机视觉领域的研究热点,也是计算机视觉领域中最重要最具挑战性的基础任务之一,其在自动驾驶、安防监控、缺陷检测等领域发挥着重要作用。近年来通过大量学者的理论研究,目标检测领域有着长足的进步。但在对小目标物体的检测、网络对尺度变化的适应性和网络对特征的表达能力上还有一定的提升空间。针对上述问题,本文通过分析基于特征金字塔结构的双阶段目标检测算法的基本原理,在特征提取网络结构和特征融合结构上进行改进,提出一种对目标尺度、场景变化和边界形变具有强鲁棒性的可变多尺度特征感知网络Deformable Multiscale Feature Perception Network(DMFPN)。其中主要工作内容如下:(1)可变多尺度特征感知网络。针对小目标问题和目标检测任务的基本要求,为后续检测任务提供更高分辨率的特征图,本文在ResNet50网络基础上进行改进,骨干网络底层增加通道加空间注意力机制,网络深层改进残差瓶颈模块结构并减少整个网络的池化次数,增强细节信息并保证检测任务在较高分辨率特征图上进行。设计了一种可以提取并融合多尺度特征的可变多尺度特征融合模块,对参加构建特征金字塔结构的特征图进行处理,提升网络对尺度变化的鲁棒性。(2)基于双向特征金字塔结构和联合归一化方法的目标检测算法。在原始特征金字塔Top-down结构基础上增加Bottom-up结构,增加特征金字塔结构对细节信息的传递,并将全局感受野信息作为引导信息对低层特征图信道进行加权,改进特征金字塔中涉及到的上采样操作。网络底层通过改变骨干网络中归一化层结构,联合使用批归一化和实例归一化,提升网络对颜色、亮度、风格上的鲁棒性,降低同类别不同个体之间的外观差异,过滤复杂的外观变化,提升网络输出模型的泛化能力,加快模型收敛速度。(3)为验证本文算法的有效性,在Pascal VOC数据集上进行算法验证,并将网络结构输出进行可视化分析。本文算法在Pascal VOC数据集得到82.30%的平均精度,在客观评价指标下将本文结构与不同算法进行定量对比并与原始算法进行主观视觉效果比较。