论文部分内容阅读
目标检测作为计算机视觉的基础任务之一,为解决分割、场景理解和目标跟踪等更复杂或更高层次的计算机视觉任务奠定了基础,它在包括机器人视觉、人机交互和自动驾驶等人工智能和信息技术领域有着广泛的应用。随着深度学习技术的发展,基于深度学习的目标检测算法取得了较大的进展,单发多框检测器(Single Shot multibox Detector,SSD)是一种在简单性、快速性和准确性之间提供最佳权衡的目标检测算法。本文选择SSD算法作为基础开展研究,考虑该算法存在小目标检测不够鲁棒以及训练过程中样本和多任务不平衡等问题,对如何提高SSD算法的检测性能进行了深入研究并提出了三种有效的解决方案。本文主要工作内容如下:首先,在详细介绍了SSD算法的网络结构和原理的基础上,针对其网络结构中检测层单一的利用方式导致特征信息使用不充分的缺点,提出了一种基于双向特征融合改进的单发多框检测器算法(Two-way Feature fusion based Single Shot multibox Detector,TFSSD)。TFSSD算法利用提出的双向特征融合模块(Two-way Feature Fusion Module,Tw FFM)对传统检测层进行特征融合以生成包含丰富几何细节和语义信息的新检测层。公共数据集上进行的一系列对比实验充分验证了Tw FFM和TFSSD算法的有效性。其次,为进一步挖掘检测层的特征信息,提出了一种联合注意力单元(Joint Attention Unit,JAU)。通过将JAU嵌入到传统检测层后,提出了一种基于注意力机制改进的单发多框检测器算法(Attention based Single Shot multibox Detector,ASSD)。JAU由缩放点积注意力(Scaled Dot-Product Attention,SDPA)和挤压激励模块(Squeeze-and-Excitation Block,SEB)组成,可以从空间和通道两个方向充分挖掘检测层内的相关性信息以获取更加重要和关键的信息,进而指导模型优化。在公共数据上进行的一系列实验结果表明,JAU是有效的,ASSD算法也比SSD算法的准确性更高。最后,针对目标检测训练过程中存在的多任务和样本不平衡问题,提出了一种更平衡的L1损失(More Balanced L1 Loss,MBL),并进一步提出了一种基于更平衡损失改进的单发多框检测器算法(Balanced with Two-way Feature fusion and Attention based Single Shot multibox Detector,BTFASSD)。BTFASSD算法利用已有的双向特征融合模块Tw FFM和联合注意力单元JAU构建整体的网络结构。BTFASSD算法首先利用Tw FFM对传统检测层进行特征融合,随后进一步利用JAU来对检测层进行重点特征信息挖掘,最后MBL则在训练过程中通过调整难易样本梯度贡献的权重来促进关键梯度的回归进而实现更均衡的训练。公共数据集上一系列的对比实验表明,BTFASSD算法进一步提高了SSD算法的精度,尤其是小目标检测的性能。