视知觉组织模型及应用研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：wudizeng

【摘要】

：

在大脑接收的来自外部世界的感知信息中,80﹪以上是通过视觉系统进行加工处理的.最近二十多年来,视觉信息加工的机制是脑科学、神经生物学、认知心理学和计算机科学等学科研究

【作者】

：

张素兰

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2007年期

【关键词】

：

感知学习知觉组织图像聚类图像匹配视觉系统量化模型格式塔法则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大脑接收的来自外部世界的感知信息中,80﹪以上是通过视觉系统进行加工处理的.最近二十多年来,视觉信息加工的机制是脑科学、神经生物学、认知心理学和计算机科学等学科研究的重大课题之一.经研究发现,视觉系统的能力和多功能性在很大程度上源于它发现由视网膜编码的图像的结构和组织的能力,为了发现和描述结构,视觉系统用了大量的知觉组织机制.如何广泛地模拟生物视知觉组织机制对信息进行智能加工和利用,使机器能够认知环境、正确接收和理解人给予的指令是信息处理技术发展的挑战. 本论文借鉴脑科学和认知心理学的最新研究成果,以格式塔知觉组织理论为依据,以统计学、信息论、计算机科学方面的知识为理论基础,从模拟大脑信息处理方式及人类盼认知规律出发,对知觉组织理论进行创新性的探索,构建知觉组织的计算模型,并将模型应用于计算机视觉的图像分割及模式识别领域中.取得的主要成果包括: 第一,提出了一个格式塔知觉组织法则的量化模型(简称QMGP模型) 格式塔知觉组织法则本身是定性的,为了运用它们进行机器组织,它们首先应该被量化.现有的量化方法因为加入了一些主观臆断,适用性相对较差.本文提出一个格式塔法则(邻近性、相似性、连续性)的量化模型,它从训练图像及人类对显著性关系和轮廓的感知结果中学习三个格式塔法则的阈值.定义了图像特征基元间距离公式,基于信息增益技术确定三个法则的不同的影响因子,并基于一些技术如属性概化、模糊理论和贝叶斯理论估计它们的阈值.同时,我们也基于数据挖掘技术挖掘组织规则,把得到的量化阈值和组织规则放入知识库中. 第二,提出了一个基于量化阈值和组织规则的知觉组织模型(简称QRPO模型) 基于上阶段学到的格式塔法则的量化阈值及组织规则,构建知觉组织模型.它首先建立待编组图像的边线段结构图,然后基于动态规划的思想设计编组方法,在图中搜索具有最大收益的通道,从而找到闭合边界或最大边界.这种方法是一种全局的方法,它在图像受噪声影响较大时效果仍较好,而且这个知觉组织过程不要求对法则之间的独立性或条件独立性进行假定,是一个全自动过程,不需人类的干预,因此,它的适用性较强. 第三,提出了一个基于先验信息的知觉组织模型(简称PIPO模型)一般地,自底向上的知觉组织模型属于数据驱动的模型,在组织过程中完全依据图像数据本身的信息,不利用有关目标的先验知识,这种模型在成像条件较好的图像上能取得较理想的效果,但是对于遮挡较严重,重要边缘缺失,背景嘈杂的图像效果却不太理想.在这一部分,我们研究了一种新型的基于先验信息的知觉组织模型.定义了先验目标的描述子,从整体拓扑结构和局部形状两方面描述先验目标.这个描述子具有旋转、平移不变性和一定程度的对缩放的不变性,在一定程度上解决了具有较大形变的形状间的匹配.设计了从待编组图像中寻求对应边线段的回溯算法,能够排除背景噪声对编组的干扰,从输入图像中提取出与先验目标拓扑结构相似的轮廓编组.PIPO模型既利用了先验目标的全局形状特征,又考虑了它的局部形状信息,实验结果表明该模型对背景嘈杂或重要边缘缺失的复杂图像具有一定的鲁棒性. 第四,提出了一个基于流形结构的图像聚类方法(简称MSIC方法) 利用格式塔知觉组织法则,基于生物学、认知心理学的研究成果(即人类对外界的感知以流形的形式存在于人的大脑中,为了识别人脸,大脑把处于同一流形上的脸部图像识别为同一个人的人脸图像,不同流形的人脸图像代表不同的人),提出一种基于流形结构的图像聚类方法,来模拟大脑从不同流形上识别出不同个体的过程.具体地,定义了一个广义测地线距离来量度高维图像空间中图像间的相似度,设计了一个图像聚类方法MSIC.MSIC与其它聚类方法的主要区别是:MSIC基于广义测地线距离,它能更好地反映嵌入在高维图像空间内的流形的内在整体几何结构;MSIC方法选用最近邻法聚类,同时考虑了类内最近点邻域的密度,即在考虑流形的整体结构的同时也没有放弃对其局部结构的把握.实验结果显示MSIC方法在对具有流形结构的图像聚类时能获得较低的错误率. 第五,提出了一个基于流形结构的图像匹配方法(简称MSIM方法) 基于生物学、认知科学的研究成果(即人类对外界的感知以流形的形式存在于人的大脑中,为了识别人脸,大脑把处于同一流形上的脸部图像识别为同一个人的人脸图像,不同流形的人脸图像代表不同的人),提出一种基于流形结构的图像匹配方法,用来在图像中查找某个人的脸部图像.提出了模式流形的概念,设计了一个自动求得匹配阈值的方法,增加了图像匹配过程的自动性,实验结果表明MSIM方法能降低对灰度值变化的敏感性,同时在一定程度上减少多个局部极值问题.

其他文献

安全操作系统软件包管理研究

软件包管理系统是操作系统中的重要组成部分，随着开源软件运动的开展，开源软件包的数量正在以指数级的速度增长，如何正确而有效地对软件包进行管理已经成为当前操作系统研究方面

学位

安全操作

面向大规模和动态PPI网络功能模块检测的蚁群算法研究

蛋白质相互作用(Protein-Protein Interaction,PPI)网络是生命有机体内的所有蛋白质间相互作用组成的网络,利用计算方法在PPI网络中检测功能模块是生物信息学中一项重要的研

学位

蛋白质相互作用网络功能模块检测多粒度模型功能保持特征蚁群算法

综合递归分块技术及其在LAPACK中的应用

矩阵计算在科学计算和其它很多的领域中有着广泛的应用。LAPACK是一款线性代数函数库，它实现了线性代数计算中的大部分操作，包括矩阵分解、线性方程求解、最小二乘问题和矩阵特

学位

矩阵计算

电信企业商业智能应用系统TEIAS的设计与实现

目前部分国内企业已经建立起一系列计算机应用系统，在运营过程中这些系统暴露出一些问题，如这些系统彼此孤立、互操作性差，数据难以得到综合分析和利用，缺乏动态捕捉市场机会、及

学位

电信企业

基于社会力和导航场的轨道交通人群仿真研究

学位

基于UWB的Inter-piconet网间通信问题的研究

目前基于UWB(超宽带技术)的短距无线通信中,其国际标准协议IEEE 802.15.3a仅涉及到微微网(piconet)内的通信,范围局限于单个微微网和有限的设备之间.这样的网络结构显然无法

学位

超宽带微微网多频带正交频分复用时频码散射网直序扩频码分多址拓扑形成

Web应用服务器JNDI服务的研究与实现

JNDI服务是Web应用服务器的核心支撑服务，在中间件系统平台中处于非常重要的地位。本文从分析Web应用服务器对于名字服务的需求和现有JNDI服务的不足入手，在J2EE1.4规范的基础

学位

Web服

基于模型驱动方法实现AMS企业管理系统的研究

A管理模式是我国较先进的企业管理思想，在很多企业得到了实施并取得良好效果。但管理过程中的数据搜集分析和过程流转等业务功能，必须依靠软件系统的支撑才能够取得实质效果。

学位

模型驱动

安全操作系统开发中的形式化技术应用研究

近年来，形式化方法——即在计算机系统和软件的规范、设计和构造中使用基于数学模型和离散数学的技术的工具的方法，被广泛应用于高等级安全操作系统的开发过程中。TCSEC的B2级

学位

安全操作

Web使用挖掘研究及其在科学数据库门户中的应用

科学数据库经过二十多年的发展，积累了大量的数据资源。随着网络技术的发展和科学研究的进步，科学数据库将成为科研工作的基础设施之一，并将成为未来科学研究必不可缺的资源。作

学位

Web使

视知觉组织模型及应用研究

与本文相关的学术论文