论文部分内容阅读
视觉注意机制是计算机视觉领域一个重要的研究课题。由于视觉注意机制的过程非常复杂,几乎涵盖了认知科学、神经科学、生物学以及计算机科学等各门学科,到目前为止人们对视觉注意的过程还没有完全了解。现有的视觉注意模型主要集中于自底向上的模型,这种模型是由数据驱动的,虽然取得了一定的成功,但在很多方面还存在着不足,比如在很多情况下,人们的注意往往受到先验知识的引导,即自顶向下的视觉注意模型;在静态场景中人们的注意力更易于被移动的刺激所吸引,即动态和静态的视觉注意模型;在图像压缩中,显著性的区域比其他区域更重要,压缩时应给予较高的分辨率,即可变分辨率的图像压缩模型。因此,研究这些视觉注意机制计算模型具有十分重要的意义。在目标背景对比度的模型中,将所有的训练目标融合成一个目标类,将所有的训练背景融合成一个背景类,对于每一个特征,目标类的显著性均值与背景类的显著性均值的比值得到一个权重,所有特征的权重构成一个权重向量;对于一个待注意场景,所有的特征图通过权重向量联合生成自顶向下的显著性图;自顶向下和自底向上的显著性图融合生成全局显著性图,此图向导了视觉注意。在目标自身特性的模型中,在训练阶段,使用初级水平的视觉特征如颜色、亮度、方位和纹理,每一个特征被分成不同的部分如颜色特征被分成红、绿、蓝三个部分,根据目标自身而不依靠背景信息提取这些特征,并且这些特征被表示成均值和标准差被存储在长期记忆库中。在注意阶段,待注意图中相应的特征被提取出来,对于每一个特征,通过比较训练的特征图和待注意的特征图得到相似性图,这两种特征图越相似,则得到的相似图的响应越强烈,然后所有的相似性图被联合形成自顶向下的显著性图,与此同时,通过待注意图本身的对比度得到自底向上的显著性图,这两个显著性图被融合成全局显著性图。在动态和静态的模型中,主要介绍了基于最大化熵的时空显著性视觉注意计算模型。模型的输入是一个短的视频,从该视频的中截取连续几帧,对于每一帧,提取颜色对比度特征,亮度对比度特征,方位特征和纹理特征,对于特征图中的每一点,计算熵值图,这些熵值图逐步融合形成了动态显著性图;与此同时,按照自底向上的方法计算当前帧的静态显著性图,动态和静态显著性图融合生成了全局显著性图,该图决定了显著性的区域。在可变分辨率的图像压缩的模型中,对于一幅给定的图像,使用自底向上的视觉注意方法找到显著性的区域,通过压缩编码的方法获得压缩图像。一般而言,第一个显著性区域不被压缩,保持原有的分辨率;最不显著的部分给出了最高的压缩率;显著性值在中间的部分,显著性越低,压缩率越高。通过这种方法,得到了一个基于视觉注意区域可变分辨率的图像压缩模型。该模型不仅对整个图像可以达到一个高的压缩率,而且还可以保持显著性区域高分辨率的效果。最后,本文对所做的工作进行了归纳总结,并且结合本文的不足之处,分析和讨论了进一步的研究计划。