论文部分内容阅读
立体视觉注意是人类视觉在信息处理过程中一个重要阶段,可以让人有效地去处理有意义的信息,自动过滤无意义或较少意义的信息。因为视觉注意的重要性,视觉注意分析得到了很多研究机构的关注,成为计算机视觉和相关领域近年来的研究热点。目前已有的视觉显著计算模型以及对应的评测数据集主要是针对二维图像和视频,随着三维摄影摄像技术的成熟,多媒体应用开始进入了立体影像时代。已有一些立体视觉显著计算模型相继被提出,但是至今仍缺乏一个多种类、多数量的立体图像公开评测数据集,因而很难对不同模型进行定量对比。为了探究2D与3D图像在眼动的区别,以及加入深度信息后视觉注意的分布变化,本文首先构建了2D与3D图像眼动对比实验,并且分别针对2D图像和3D图像提出了视觉显著计算模型。本研究主要内容包括: ⑴构建了一个包含1000张不同种类的立体图像数据集,并且采用眼动仪收集了20位被试的眼动数据。同时设计了3D图像眼动和2D图像眼动的对比实验。实验分析表明,在自然情况下观看3D图像时对比2D图像具有注视点多,而且每个注视点关注时间更短的特点。从眼动分布对比可以看出,2D与3D两种情况下眼动分布存在一定的差异。本次实验选取了100张复杂场景和100张简单场景的图像,可以发现不同复杂度场景下眼动存在明显的差异,并且在复杂场景中深度信息对视觉注意分布影响更为明显。 ⑵基于生理学、心理学和神经科学的结论,构建了一个多尺度多方向自底向上的二维视觉显著计算模型,该模型主要采用2D Log-Gabor滤波金字塔模拟单眼感受野模型,并且加入“中心偏爱”现象的影响,形成一个针对2D图像的视觉显著计算模型。基于本文构造的二维图像数据集即相应的眼动数据,和已有立体视觉显著计算模型对比,结果表明本文中提出的二维视觉显著计算模型的有效性。 ⑶在二维视觉显著计算模型基础上,提出了一个新的多尺度、多方向、双眼融合、自底向上的立体视觉显著计算模型。首先借鉴视网膜的生理特性,提取颜色特征与亮度特征作为输入,用2D Log-Gabor滤波金字塔模拟单眼的感受野模型并且加入左右眼相位差因素,然后用Two-Stage模型模拟左右眼刺激与抑制等相互作用进行双眼融合。之后加入“中心偏爱”和“前景偏爱”这两个常见现象对立体视觉注意的影响,最终获得立体图像的显著区域。采用本文构造的多种类规模化的立体图像数据集以及相应的眼动数据,与已有立体视觉显著计算模型对比,结果证明本文提出的立体视觉显著计算模型在效果上有了很大的改进,能更有效提取立体图像中感兴趣区域。综上所述,本文针对2D与3D图像眼动对比、二维和立体视觉显著计算模型三个重要问题进行了研究。本文的研究工作为立体视觉显著计算模型进一步研究奠定了基础。