论文部分内容阅读
图像目标检测是计算机视觉信息处理的基本问题,是行为理解、场景分类和视频内容检索等其他高级复杂视觉问题的基础,具有学术研究与实践应用的双重意义。论文针对目前图像目标检测中的技术难点问题,研究基于多层次特征融合区域生成网络的候选区域获取方法,解决复杂背景干扰问题;研究多尺度自适应特征提取方法,解决人工特征设计难以及目标多尺度问题;研究多任务回归器的设计方法,解决图像目标检测中待检测目标难分类的问题。论文主要工作如下:在候选区域提取层面上,待检测目标图像存在复杂背景和无关信息干扰问题,论文采用基于多层次特征融合的区域生成网络(multi-level feature fusion region proposals network,MFF-RPN)模型对待检测目标图像进行候选区域的提取,通过对模型提取到的底层特征进行平均池化操作以及对模型提取到的高层特征进行反卷积操作,将底层特征和高层特征保持在相同的分辨率下。然后通过局部响应归一化将底层特征和高层特征压缩至同一特征空间下。最终将传统区域生成网络分类层和检测层前加入感兴趣区域(region of interest,ROI)池化层和全连接层,提取更细致的区域特征,获取少量精致的候选区域,剔除复杂背景和无关信息的干扰。在特征提取层面上,由于待检测图像中目标距离、光照条件的不同造成传统人工特征难以设计,论文针对此问题构建一种多尺度卷积神经网络模型,在网络中构建不同尺度的卷积层,即在底层卷积层设置较小的卷积核,提取更多底层位置细节信息,在高层卷积层设置较大卷积核,提取待检测目标全局类别模式特征,最终连接ROI池化层将待检测目标整体特征映射至同一特征图中,构造多尺度特征,自动获取待检测图像的复杂抽象特征,有效解决待检测图像目标检测特征难提取的问题。在分类检测层面上,论文提出一种多任务分类回归器,将候选框特征提取,目标分类和检测任务统一在深度学习框架下,建立一种图像目标特征与目标分类检测模式之间的复杂映射机制,并利用非极大抑制方法获取最终得分较高的目标检测区域,提高分类器分类精度,同时校正卷积神经网络提取有效特征的能力,解决图像目标难分类检测问题。论文在PASCAL VOC2007、VOC2012两个数据库展开验证实验,通过与其他文献的实验结果对比,说明论文所提的基于卷积神经网络的图像目标检测方法能够有效提升检测精度,实现图像目标检测。