论文部分内容阅读
作为图像数据中重要的信息之一,场景图像的分析是目前计算机视觉领域的研究热点。场景图像的分析主要包括了场景分类和场景检测任务,例如让机器能够像人一样理解场景图像所属于的类别,当前场景图像中所含有的物体,以及这些物体在当前场景中所处的位置。然而,由于现有方法的局限性,场景分类检测任务仍未得到完美的解决。因此,改进现有方法突破瓶颈成为场景分类检测领域中亟需解决的关键问题。
深度卷积神经网络是一种基于人脑视觉机制提出的仿生算法,借鉴视觉信息在大脑皮层中级联传递的策略,通过多层卷积神经网络的级联对场景图像进行特征提取和识别。大脑中影响视觉信息传递的生物机制很复杂,而深度卷积神经网络仅仅是借鉴了其中很小一部分策略。因此挖掘更多的与大脑视觉机制相关的类脑机制,并结合深度卷积神经网络构建全新有效的模型也是目前该领域的发展趋势。本文基于深度卷积神经网络,结合视觉拥挤、双目视差等多种大脑视觉机制,为场景图像的分类和检测任务提供了新思路。本论文的主要工作如下:
(1)针对场景分类任务,提出了双通道多尺度卷积神经网络的场景分类方法。针对模拟单侧视野机制的深度卷积神经网络在解决场景分类任务时存在局限性这一问题,本文提出了一种基于双通道网络结构和多尺度特征整合策略的卷积神经网络来对场景图像进行分类。该方法利用双通道网络和多尺度特征整合策略,减少了视觉V1、V4区域中由于视觉拥挤而造成的识别障碍,最后在 MIT Indoor 67 和Scene 15数据集上验证了该网络具有优秀的性能。
(2)针对场景检测中的深度信息提取任务,提出了图像分割及模糊信息的单幅图像深度信息提取方法。针对现有的基于传统策略的单幅图像深度提取方法具有效率低、耗时长等问题,本文基于现有方法提出了基于图像分割及局部模糊信息的单幅图像的深度提取方法。该方法首先利用特定的模糊核对原始图像进行双模糊处理,并求取模糊图的梯度比,通过梯度比推导求得图像边缘模糊信息,并利用高效图像分割策略得到图像边缘,然后利用提出的共邻域同深度的扩散策略,使得最终求得的深度信息图具有更好的局部一致性。实验证明,该算法在局部深度信息上相对于现有传统方法有提升,降低了局部深度误差率,且在处理单幅图像的时间比现有传统方法要快。
(3)针对场景检测任务,提出了图像深度信息的分层次场景检测方法。针对复杂场景下目标尺寸不一,难以用固定的策略满足不同尺度的检测任务这一问题,本文提出了基于图像深度信息的分层次场景目标检测算法。通过计算得到不同尺度的先验信息,对不同层次的场景目标进行检测。利用本文提出的目标检测算法,有效地解决了复杂场景下各种不同尺度目标共存的问题。
深度卷积神经网络是一种基于人脑视觉机制提出的仿生算法,借鉴视觉信息在大脑皮层中级联传递的策略,通过多层卷积神经网络的级联对场景图像进行特征提取和识别。大脑中影响视觉信息传递的生物机制很复杂,而深度卷积神经网络仅仅是借鉴了其中很小一部分策略。因此挖掘更多的与大脑视觉机制相关的类脑机制,并结合深度卷积神经网络构建全新有效的模型也是目前该领域的发展趋势。本文基于深度卷积神经网络,结合视觉拥挤、双目视差等多种大脑视觉机制,为场景图像的分类和检测任务提供了新思路。本论文的主要工作如下:
(1)针对场景分类任务,提出了双通道多尺度卷积神经网络的场景分类方法。针对模拟单侧视野机制的深度卷积神经网络在解决场景分类任务时存在局限性这一问题,本文提出了一种基于双通道网络结构和多尺度特征整合策略的卷积神经网络来对场景图像进行分类。该方法利用双通道网络和多尺度特征整合策略,减少了视觉V1、V4区域中由于视觉拥挤而造成的识别障碍,最后在 MIT Indoor 67 和Scene 15数据集上验证了该网络具有优秀的性能。
(2)针对场景检测中的深度信息提取任务,提出了图像分割及模糊信息的单幅图像深度信息提取方法。针对现有的基于传统策略的单幅图像深度提取方法具有效率低、耗时长等问题,本文基于现有方法提出了基于图像分割及局部模糊信息的单幅图像的深度提取方法。该方法首先利用特定的模糊核对原始图像进行双模糊处理,并求取模糊图的梯度比,通过梯度比推导求得图像边缘模糊信息,并利用高效图像分割策略得到图像边缘,然后利用提出的共邻域同深度的扩散策略,使得最终求得的深度信息图具有更好的局部一致性。实验证明,该算法在局部深度信息上相对于现有传统方法有提升,降低了局部深度误差率,且在处理单幅图像的时间比现有传统方法要快。
(3)针对场景检测任务,提出了图像深度信息的分层次场景检测方法。针对复杂场景下目标尺寸不一,难以用固定的策略满足不同尺度的检测任务这一问题,本文提出了基于图像深度信息的分层次场景目标检测算法。通过计算得到不同尺度的先验信息,对不同层次的场景目标进行检测。利用本文提出的目标检测算法,有效地解决了复杂场景下各种不同尺度目标共存的问题。