论文部分内容阅读
在大脑接收的来自外部世界的感知信息中,80﹪以上是通过视觉系统进行加工处理的.最近二十多年来,视觉信息加工的机制是脑科学、神经生物学、认知心理学和计算机科学等学科研究的重大课题之一.经研究发现,视觉系统的能力和多功能性在很大程度上源于它发现由视网膜编码的图像的结构和组织的能力,为了发现和描述结构,视觉系统用了大量的知觉组织机制.如何广泛地模拟生物视知觉组织机制对信息进行智能加工和利用,使机器能够认知环境、正确接收和理解人给予的指令是信息处理技术发展的挑战.
本论文借鉴脑科学和认知心理学的最新研究成果,以格式塔知觉组织理论为依据,以统计学、信息论、计算机科学方面的知识为理论基础,从模拟大脑信息处理方式及人类盼认知规律出发,对知觉组织理论进行创新性的探索,构建知觉组织的计算模型,并将模型应用于计算机视觉的图像分割及模式识别领域中.取得的主要成果包括:
第一,提出了一个格式塔知觉组织法则的量化模型(简称QMGP模型) 格式塔知觉组织法则本身是定性的,为了运用它们进行机器组织,它们首先应该被量化.现有的量化方法因为加入了一些主观臆断,适用性相对较差.本文提出一个格式塔法则(邻近性、相似性、连续性)的量化模型,它从训练图像及人类对显著性关系和轮廓的感知结果中学习三个格式塔法则的阈值.定义了图像特征基元间距离公式,基于信息增益技术确定三个法则的不同的影响因子,并基于一些技术如属性概化、模糊理论和贝叶斯理论估计它们的阈值.同时,我们也基于数据挖掘技术挖掘组织规则,把得到的量化阈值和组织规则放入知识库中.
第二,提出了一个基于量化阈值和组织规则的知觉组织模型(简称QRPO模型) 基于上阶段学到的格式塔法则的量化阈值及组织规则,构建知觉组织模型.它首先建立待编组图像的边线段结构图,然后基于动态规划的思想设计编组方法,在图中搜索具有最大收益的通道,从而找到闭合边界或最大边界.这种方法是一种全局的方法,它在图像受噪声影响较大时效果仍较好,而且这个知觉组织过程不要求对法则之间的独立性或条件独立性进行假定,是一个全自动过程,不需人类的干预,因此,它的适用性较强.
第三,提出了一个基于先验信息的知觉组织模型(简称PIPO模型)一般地,自底向上的知觉组织模型属于数据驱动的模型,在组织过程中完全依据图像数据本身的信息,不利用有关目标的先验知识,这种模型在成像条件较好的图像上能取得较理想的效果,但是对于遮挡较严重,重要边缘缺失,背景嘈杂的图像效果却不太理想.在这一部分,我们研究了一种新型的基于先验信息的知觉组织模型.定义了先验目标的描述子,从整体拓扑结构和局部形状两方面描述先验目标.这个描述子具有旋转、平移不变性和一定程度的对缩放的不变性,在一定程度上解决了具有较大形变的形状间的匹配.设计了从待编组图像中寻求对应边线段的回溯算法,能够排除背景噪声对编组的干扰,从输入图像中提取出与先验目标拓扑结构相似的轮廓编组.PIPO模型既利用了先验目标的全局形状特征,又考虑了它的局部形状信息,实验结果表明该模型对背景嘈杂或重要边缘缺失的复杂图像具有一定的鲁棒性.
第四,提出了一个基于流形结构的图像聚类方法(简称MSIC方法) 利用格式塔知觉组织法则,基于生物学、认知心理学的研究成果(即人类对外界的感知以流形的形式存在于人的大脑中,为了识别人脸,大脑把处于同一流形上的脸部图像识别为同一个人的人脸图像,不同流形的人脸图像代表不同的人),提出一种基于流形结构的图像聚类方法,来模拟大脑从不同流形上识别出不同个体的过程.具体地,定义了一个广义测地线距离来量度高维图像空间中图像间的相似度,设计了一个图像聚类方法MSIC.MSIC与其它聚类方法的主要区别是:MSIC基于广义测地线距离,它能更好地反映嵌入在高维图像空间内的流形的内在整体几何结构;MSIC方法选用最近邻法聚类,同时考虑了类内最近点邻域的密度,即在考虑流形的整体结构的同时也没有放弃对其局部结构的把握.实验结果显示MSIC方法在对具有流形结构的图像聚类时能获得较低的错误率.
第五,提出了一个基于流形结构的图像匹配方法(简称MSIM方法) 基于生物学、认知科学的研究成果(即人类对外界的感知以流形的形式存在于人的大脑中,为了识别人脸,大脑把处于同一流形上的脸部图像识别为同一个人的人脸图像,不同流形的人脸图像代表不同的人),提出一种基于流形结构的图像匹配方法,用来在图像中查找某个人的脸部图像.提出了模式流形的概念,设计了一个自动求得匹配阈值的方法,增加了图像匹配过程的自动性,实验结果表明MSIM方法能降低对灰度值变化的敏感性,同时在一定程度上减少多个局部极值问题.