论文部分内容阅读
物体检测在图像识别与计算机视觉领域中是一个比较热门的研究方向,在诸多领域中,均有着广泛的用途。在自动驾驶领域,通过物体检测来合理的规避行人和车辆;在图像处理领域,图像分类,语义分割,场景理解等任务都是建立在物体检测之上的;所以,物体检测任务研究有着重大的意义和广泛的发展前景。目前,单帧图像中的物体检测任务已经步入正规,部分检测算法已经达到实时处理的检测效果,但是由于该方法不是专门为视频检测所设计的,所以将单帧图片的检测方法直接应用到视频中的多物体检测任务仍然存在许多问题。因此本文主要从两方面对视频中的多物体检测任务进行研究,为了适应多物体的形态多样化改进了基于卷积神经网络的物体检测算法,为了提高物体检测的精确度融合了上下文信息进行多物体检测。在基于卷积神经网络的物体检测方面,主要从提取候选区域及检测窗口的抑制算法这两个方面进行改进。首先介绍了两种提取候选区域的方法并且分析了其优缺点。现有的提取候选区域方法计算量大,重叠区域多,并且不能很好的适应多物体检测任务中物体的形态多样性。本文提出了多尺度特征下提取候选区域算法,关注物体在多个层次上的语义信息,降低多物体检测中小物体被漏检的概率。在检测框抑制算法上,本文针对现有的抑制算法对相邻较近的物体无法有效判断的现象,提出了基于中心点的非极大值抑制算法,通过判断检测窗口的中心点距离来抑制冗余的窗口,从而降低出现漏检的概率。在视频中的多物体检测方面,本文首先介绍了视频中多物体检测存在的问题,由于视频序列由连续的多帧图片所组成,因此基于视频序列的多物体检测与基于单帧图片的多物体检测有着很大的相似性,但是由于单帧图像的检测算法未考虑视频序列的上下文信息,在视频序列中,对于同一个物体具有丰富的相关信息可以利用,因此本文提出将上下文信息融入卷积神经网络多物体检测中,利用相邻帧间的相关性来提升当前帧物体检测的准确性,该算法能够提高视频中多物体检测的准确率,但因处理了更加复杂的问题算法的复杂度会上升。