论文部分内容阅读
场景理解作为图像处理和计算机视觉研究领域中极其重要的基础性任务,其研究成果已广泛应用于军事无人机、航天器导航、网络多媒体信息搜索、智能监控、智能交通、医疗信息化等众多军事和民用领域,显示了其重要的学术研究和应用价值。场景理解的各子任务如图像显著性检测、图像目标检测、图像分割、场景分类、图像标注等的研究工作都已取得了突破性进展。图像整体场景理解作为其延伸,其复杂性和综合性远高于基本图像理解任务,目前研究还处于起步阶段。近年围绕“整体理解”的指导思想,学者们提出了任务集成和特征信息集成的研究思路,研究如何将这些分支任务融为一体或者综合利用整体场景信息,以实现整体场景理解的最终目标,并据此提出多种整体理解解决方案。但目前已有研究成果并不完全令人满意。因此,本文着眼于图像显著性检测、场景分类、图像分割、图像标注以及它们之间整体集成等研究热点和难点。通过概率图模型建模,针对已有研究中的不足开展研究,并提出了相应的解决方法。本文主要内容和贡献如下:一、对图像整体场景理解的背景、研究现状、主要技术难题和解决方案等进行了系统研究,对现有的典型图像整体场景理解模型及其相应的特征工程进行了对比分析,提出基于概率图模型的图像整体场景理解及其特征工程的基本框架。研究表明,图像整体场景理解是非常有前景的研究热点和难点之一,已取得了显著进展,但仍然存在不少技术难题阻碍了整体场景理解模型在实际中的广泛应用,例如:模型集成、有效特征工程选择、图像整体场景认知理论地深入分析、模型与特征工程有效匹配等。本研究内容为后续研究提供理论依据和重要参考。二、针对图像显著性检测和分割中存在的显著性对象边缘和空间逻辑关系保留问题,提出了一个直接进行图像显著性检测和分割的解决方案,为进一步图像理解奠定基础。具体而言,1)提出改进的基于图切算法实现图像的首次粗分割,拓宽了图切算法的适用场合即可用于非交互式场景,并且能很好地保存显著性对象边缘和空间逻辑依赖关系。2)为了消除首次分割后产生的部分冗余区域,提出基于最近邻图的超像素图分割的区域亮度比较方法:(1)首先将首次分割结果再次分割成2到4个区域;(2)采用基于韦伯亮度基准的区域亮度比较方法实现区域比较,有效地剔除那些亮度小的非显著性冗余区域,进一步改进整体方案的图像显著性检测和分割性能。三、针对图像分类特征高维性和分类模型参数优化问题,提出了基于特征核变换和随机超参数优化的图像场景分类方法。1)基于图像特征提取和特征维度对模型执行性能和分类准确率的重要影响,提出基于PHOW特征提取和KPCA核变换的特征降维方法,有效地降低了特征维度,同时不失准确率。2)模型参数对模型性能影响极大,为了解决模型参数优化问题,提出对模型分类器进行随机超参数优化方法,实验证明了提出方法的有效性。3)比较了经典的两类分类器:支撑向量机和伯努利贝叶斯分类器。实验表明,伯努利贝叶斯分类器在分类准确率方面低于支撑向量机,但其执行性能则明显好于支撑向量机。四、提出了基于全局上下文特征和贝叶斯主题模型的图像整体场景理解框架,模型集成了场景分类、图像标注和语义分割三项基本子任务。模型充分利用两方面的全局上下文信息,一是融入图像全局上下文信息提升了图像场景分类和图像标注性能;二是改进超像素分割方法及其与图像小块的特征表达,改善了分割性能。具体而言,1)场景分类和图像标注部分:(1)改进了特征信息的提取方法,采用本文第四章提出的PHOW特征提取方式,得到每幅图像的语义特征信息;(2)对语义特征进行进一步学习得到全局上下文特征。2)语义分割部分:(1)改进了超像素区域的分割方法,采用UCM方法(文献[66]),改善了分割精度和对象边缘细节保留能力;(2)改进超像素区域和图像小块特征表达,融入DSIFT、纹理滤波、RGB颜色、HOG特征、LBP特征和位置特征。实验证明,由于全局特征信息的融入,模型整体性能在三个子任务上均得到提升。五、提出了基于图像本质特征和CRF模型的整体场景理解模型,集成了场景分类、语义分割和对象检测三个子任务。具体而言,1)场景分类部分:图像整体特征信息能更好地增强场景的区分性,采用本文第四章提出的PHOW加KPCA降维的方式,得到每幅图像的特征信息。2)对象检测部分:基于图像的显著性检测和分割特性对对象检测有重要的帮助,提出在对象检测判别中融入本文第三章所提出的显著性分割后所得到的图像信息。3)语义分割部分:(1)单元分割势能部分,我们融入了HOG特征、RGB颜色直方图特征和LBP特征,通过文献[38]的方法得到超像素区域的单元势能;(2)我们利用图像的内在流形结构特征能更好地反映超像素分割区域之间的重要程度,有助于最终分割准确率提高的特点,提出增加高阶势能项反映图像中各超像素区域的内在流形特征。实验证明,提出模型整体性能在三个子任务上均得到提升。