论文部分内容阅读
在我们的视觉系统中,视觉信息首先被分解为亮度、颜色、方位、运动等简单的特征。虽然这快速而并行的过程针对着整个视野,我们感知到的视觉信息在每一时刻只是针对于视野中的局部区域,同时串行的随着我们注视中心的改变转移。那我们视觉系统中为什么需要如此大及针对于整个视野的特征集如果我们只能感知到一个小区域?是为了找到一个感兴趣或显著的区域作为我们下一个注视中心,而这样我们能够减少基于检测和识别的搜索时间。 在本论文我们研究此十分重要的视觉注意机制,特别是对于基于频域的自下而上显著性检测方法,因为那些方法速度快,符合心理学的实验,可却没有任何生物依据这些方法只是通过实验结果启发式地证明该方法模仿视觉注意的能力。我们的研究动机就是给出基于频域的视觉注意方法的生物依据,并且提出一个更有生物可信性的方法。其方法要简单,计算速度要快,并且性能要好于其他的视觉注意方法。以下是我们主要的4个创新点: 1.除法归一化能够模仿视觉细胞的侧抑制机制,被认为是对于视觉注意具有关键作用的中心-周边对抗性。我们推导除法归一化的频域等效,并且连接到信息理论中的能量均衡或白化原理,能够得到信息最大化。我们把此理论称为谱白化(SW)。 2.在SW理论的基础上,提出一个快速、具有生物可信性的基于频域的视觉注意显著性检测方法,称为频域除法归一化(FDN)。我们给出一个基于空间域的方法,然后给出它在频域中的等效。其中在特征抽取阶段我们使Fourier系数归为相似于contourlet变换的子带组,并用频域中的除法归一化来计算显著性。实验表明频域中的除法归一化符合单细胞的生理实验,而FDN方法在视觉的心理学实验及在人眼注视点的两个数据库检测中性能最好。 3.因频域的全局性FDN假设侧抑制的区域是全局的,而生物的周边是局部的,为了克服这个问题我们扩展FDN方法,提出一个分块的FDN模型(PFDN)。用Laplacian金字塔分解尺度信息,使每个尺度层分为重叠的子块分别进行FDN的计算,最后重组为显著图,这种做法更符合生物实验。此外,我们加入运动信息,用相位相关补偿(PCC)的差图作为运动通道,得到一个完整的时空视觉注意模型。在图像和视频的人眼注视点预测实验中PFDN展示出优势,性能要比FDN和其他典型方法更好。 4.提出一个PFDN方法的应用,在感兴趣区域(ROI)的图像编码领域做出贡献。我们给出一个基于DCT变换的后处理方法,把小于阈值的DCT系数设为0。我们给高显著性的DCT子块更低的阈值及低显著性的DCT子块更高的阈值。这样,我们稀疏化低显著性的DCT子块,得到更高的压缩比而不改变高显著性DCT子块的压缩比。实验表明我们的稀疏化JPEG方法性能要好于现有的基于模糊预处理的ROI的图像编码方法。