论文部分内容阅读
图像理解研究利用计算机系统解释图像,实现类似人类或其他高等生物视觉系统理解外部世界的行为,是当前计算机领域的研究热点和难点。图像理解与计算机视觉都在于研究并体现具有与人类视觉认知水平相当的能力,因此从人类视觉感知系统出发研究图像理解过程具有重要的理论意义和应用前景。事实证明图像理解所具有的显著层次分析结构与视觉系统的层次化感知机制是高度一致的,对视觉感知系统的结构和功能的理解及其数学模型的建立是扩充和发展现有图像理解方法的一种重要手段和根本出发点。本文从图像理解与计算机视觉以及认知学之间的关系入手,以视觉认知的生理学和心理学研究成果为依据,以视觉信息的表示、学习和理解为研究主线,重点分析了视觉层次感知机制及其计算模型,结合相关视皮层的重要结构和功能机理,研究并构建了基于视觉层次感知机制的图像理解框架,完成了视觉分割、轮廓检测、广义目标识别以及场景分类等不同层次的图像理解任务。本文的主要工作如下:(1)概述了图像理解的发展历史、研究现状及其层次结构特点,介绍了视觉层次感知系统的生理学构造、功能特点及相关研究成果,总结了基于视觉层次感知机制的计算模型,指出了视觉感知系统中存在的若干重要结构和功能机理,分析了图像理解与视觉感知系统之间的关系,提出了基于视觉层次感知机制的图像理解研究框架。(2)研究了图像理解的低层特征描述方法,针对彩色图像的分割问题,通过构造分层特征描述了具有视觉感知一致性的图像区域,利用Fuzzy-ART内部的bottom-up和top-down交互作用形成了不同特征层次的像素类别划分,结合一定的区域合并策略,构建了层次化的视觉感知分割模型。(3)以视皮层的拓扑连接为依据,进一步研究了图像理解的低层视觉描述,通过分析神经元之间的侧抑制与拓扑连接关系及其视觉形成机理,在原始自适应共振模型中引入了拓扑结构及其自组织学习策略,建立了具有拓扑保持特性的自适应共振模型,形成了拓扑保持结构下的低层视觉属性描述,实现了视觉目标的轮廓检测以及区域分割。(4)以图像理解的中层结构信息表示方法为基础,分析了相关视皮层目标识别计算模型,有效利用初级视觉系统的信息抽象方法和稀疏编码机制,形成了视皮层目标识别计算模型中目标原型的稀疏化表示,提出了复杂背景下基于稀疏编码机制的层次化广义目标识别算法。(5)以图像理解的高层视觉认知过程为背景,在理解场景的全局快速感知效应的基础上,分析了场景感知Gist表示的快速形成机理,研究了视皮层的层内快速反馈动力学特性及其与场景整体感知之间的关系,构建了基于视皮层组织的场景全局感知计算模型,实现了有效地场景分类算法。