论文部分内容阅读
目标检测是计算机视觉领域的核心任务,其任务定义是通过紧密包围目标的矩形框定位出图像中的物体,并同时判别出其所属类别。目标检测技术既可服务于计算机视觉领域的顶层技术应用,同时也被直接应用于智能城市、自动驾驶以及智能医疗等领域,兼具学术科研与工程应用价值。近年来,学术界利用深度学习强大的语义表述能力,在目标检测算法的准确率与算法速度方面取得了突破性进展。然而,深度学习目标检测算法在不同的应用场景下依旧面临许多困难与挑战,如在多尺度检测算法中存在小尺寸框的错误检测现象,目标聚集场景中难以做到所有目标物体的正确检测,以及在真实世界的监控场景中目标检测算法难以同时做到抑制错误检测与提升正确检测等问题。本文根据目标检测算法面临的挑战,通过分别引入空间上下文和时间上下文信息,解决相应的问题。具体而言,本文的主要工作如下:针对多尺度目标检测算法中存在的大量小尺寸错误检测的问题,提出了一种基于预检测算法模块的目标检测算法,该算法模块相比于检测特征层位于更深一层的特征层中,拥有语义表达能力强和空间上下文信息丰富的优势,它用来对每个先验框潜在偏移的区域进行物体性预检测。实验分析验证了对同一感兴趣区域使用不同深度特征层进行独立检测流程切实有益于提升最终的检测性能,进而证明预检测算法模块输出的区域物体性置信度能够有效抑制小尺寸的错误检测数量,提升目标检测算法的总体性能。针对目标聚集场景中正确检测数量过少的问题,提出了一种基于视野膨胀与自注意力聚焦的目标检测算法。该方法使算法网络专注于候选框区域中目标物体所在的核心位置,降低候选框区域特征在目标物体聚集时出现的定位混乱问题,进而提升物体聚集场景下算法的正确检测数量。该方法在KITTI行人检测测试集的困难难度测评中,准确率均值达到74.8%,在截至目前的KITTI行人检测算法排行榜单中位列第一。针对真实世界的监控场景目标检测问题,提出了一种基于前景增强与背景对齐的目标检测算法,旨在做到同时抑制错误检测与提升正确检测。该方法为两步式目标检测算法,首先在第一阶段使用背景消除算法对监控视频的时间上下文信息加以利用,提取每帧图像对应的前景图像,并使用前景图像生成特征级别掩码,增强前景物体区域的特征表达,同时抑制背景区域的噪声响应。随后在算法的第二阶段使用成对式的非局部关联操作解决背景图像和原始帧图像之间的未对齐问题,完成对检测框的精准定位回归,提升算法性能。经过实验分析,该方法展示了其在抑制错误检测与提升正确检测两方面的优秀性能。