论文部分内容阅读
图像分析与图像理解都是以数学分析为基础,利用计算机处理图像,完成某些任务,只是前者侧重于对图像中感兴趣区域的分割、检测等操作;而后者侧重于获取图像中的知识,对图像进行理解和解释,这些都是当前计算机领域的研究热点和难点。图像分析和图像理解与计算机视觉、与人工智能有着密切的联系,两者都在于研究并实现具有与视觉系统感知水平相当的框架模型,因此从分析模型和方法本身入手来研究图像分析与理解过程具有重要的理论意义和应用前景,同时对模型的结构和功能的理解及其数学模型的建立是扩充和发展现有图像分析和理解方法的重要手段。
本文从图像分析与理解中的关键模型和方法入手,以视觉信息的表示、学习和理解为研究主线,重点分析了模型结构及其表示方法,结合相关视觉系统的结构和功能机理,初步研究并构建了基于若干模型方法的图像分析和理解框架,完成了图像分割、视频分类、场景识别以及目标标注等不同层次的图像分析和图像理解任务。
本文的主要工作如下:
(1)概述了图像分析与图像理解的层次结构、相互关联及其研究现状,总结了图像分析和理解的中的模型和方法,分析了采用智能模型方法进行图像分析与理解的可行性,提出了基于若干模型方法的图像分析与理解的研究框架。
(2)以图像的低层特征描述方法为基础,特别是针对图像中车辆阴影的分割问题,提出了带有目标知识约束的背景更新模型,获取了多颜色空间中阴影敏感的光谱特征,融合了多颜色空间中各通道条件随机场分割结果,构建了基于多颜色空间目标约束的图像分割模型。
(3)以Bag-of-words模型为基础,进一步研究了图像的低层视觉描述,提出了融合颜色信息的尺度不变特征转换,使得局部特征可以结合全局信息,构建了全局-局部信息视觉词汇,利朋概率隐语义分析模型对视频进行语义内容分段解析,有效的实现了高精确度的医学视频分类。
(4)以图像的中层结构信息表示方法为基础,分析了相关视觉系统场景识别模式,有效利用了全局和局部特征信息,融合了图像层次结构表示和神经网络收敛方法,依次使用生成模型和判决模型进行训练,捉山了基于多层次混合模型的广义场景识别算法,对于广义数据库和特殊数据库均有效地实现了场景识别。
(5)以高层视觉认知过程为背景,在LabelMe数据库的基础上,研究了构成目标图像块的中层语义信息,分析了图像块视觉词汇的流形分布,构建了基于流形学习特征约减的带有中层语义约束的目标标注模型,有效地实现了目标标注。