论文部分内容阅读
人左右眼间距的存在,使得同一空间物体在左右眼视网膜上的投影存在位置差异,称之为视差。立体匹配旨在研究如何准确鲁棒地计算左右图像的视差,是计算机视觉研究的核心问题之一,具有重要的理论意义和广泛的应用背景。随着新的数学工具的引入,目前基于数学和工程的立体匹配算法取得了比较好的计算结果,然而还无法与人类快速、精确、鲁棒的立体感知相媲美。因此,探索人类的立体匹配机理,建立基于神经生理机制的立体匹配算法具有重要的意义,有望从根本上解决视差计算的问题。
本文从视皮层神经元的视差检测机制出发,对立体匹配问题进行了深入探索,主要工作如下:
为了建立基于神经生理机制的立体匹配算法,本文对近年来神经生理学在生物立体匹配方面的主要进展和研究成果进行了较为全面的总结,涉及的视皮层区域包括初级区域中的V1、V2、V3区,以及背部通道的MT、MST、IPS和腹部通道的V4、IT区。此外,还简单介绍了著名的视差能量模型以及它的一些推广型模型。
视差能量模型是目前比较公认的描述V1区神经元视差选择特性的模型。虽然它可以解释很多V1区神经元的神经生理特性,但还有一些神经生理学的发现是它无法解释,例如,V1区神经元对反相关随机点立体图的响应要比对随机点立体图响应弱的现象。为此,本文提出了一种加权视差能量模型:首先,利用左右眼感受野内的信号差异对神经元的响应进行调制,然后再结合神经元之间的相互作用来计算细胞群响应,从而得到刺激物的视差。加权视差能量模型一方面很好地解释了V1区神经元对反随机点立体图的响应比随机点立体图响应弱的生理特性;另一方面,基于加权视差能量模型的视差计算精度比现有的基于神经生理学的其它方法高,甚至高于一些传统的计算机视觉方法。
从生物的立体匹配过程出发,本文提出了一种图像视差计算的层级模型,具体包括:(1)提出了一种符合心理学实验结果的归一化视差能量模型,减弱了刺激物对比度变化和在感受野中的位置变化对神经元视差响应的影响;(2)利用视皮层视差功能柱的性质,提出了一种不同倾向视差神经元的汇聚方法;(3)根据不同脑皮层之间的连接关系,提出了一种两层网络模型来解决V1区神经元编码视差的歧义问题。实验表明,视差计算的层级模型能够有效地提高纹理重复和纹理不丰富区域的视差计算精度。
神经生理学的研究结果表明,从双眼信息融合到匹配完成的过程经历了多个视皮层区域。基于此,本文提出了一种基于深度神经网络的视差计算模型。该模型由4个卷积层组成,逐层利用待匹配点周围神经元的视差调谐响应来纠正该点处神经元的视差调谐响应,使得模型从低层到高层的输出结果精度越来越高,具体表现为:正确视差处神经元的响应逐步增大,同时错误视差处神经元的响应逐步被抑制。实验结果表明,基于深度神经网络的视差计算模型可以较好地模拟从双眼信息融合到匹配完成的过程,高层神经元能够对低层神经元输出结果中产生的错误进行一定的纠正。