论文部分内容阅读
人类视觉系统对获取的视觉信息具有强大的分析和鉴别能力,其中之一就是对外界事物的认知能力,这种我们人类具有的基本认知能力在计算机视觉领域就被称之为图像目标识别。人类视觉面临的是环境中千变万化的各类目标,这就意味着计算机视觉领域的图像目标识别面临的将是一个大规模甚至超大规模的图像数据库,而且这个数据库会随着时间的推移不断增长,大规模的图像数据库同时也意味着数据的复杂性,如图像目标类别数目变化、图像背景复杂而混乱等。正因为这“大规模”和“复杂性”给图像目标识别任务造成了极大的困难。目前,这些困难主要表现在:“语义鸿沟”、局部特征的辨别力、感兴趣目标分割以及运行效率等。 本文以Marr计算视觉理论为基本理论基础,采用自下而上处理(即数据驱动)的技术路线,在词袋(Bag-of-words)模型的理论框架上,以局部特征和视觉显著性为切入点,重点研究图像目标分类识别中的关键技术来解决上述困难,研究包括:图像预处理,局部特征描述,显著性区域检测,图像特征编码。本文力求在研究思路和方法上有所突破和创新,具体研究内容可以概括为以下五个方面: ①设计了一个新的脉冲噪声检测器,并结合梯度信息,提出了一种混合噪声去噪算法。首先,通过引入一幅参考图像,设计了一个更加准确的脉冲检测器,称作DARD(Directional Absolute Relative Differences)统计。去噪算法由两部分组成:生成参考图像与图像去噪。初始参考图像由中值滤波器去噪后得到,然后通过本文的去噪算法迭代1-2次得到参考图像。在去噪算法中,首先将梯度信息引入高斯滤波器框架得到一个新的高斯滤波器用来去除高斯噪声,然后引入DARD统计用来去除脉冲噪声,最后将其合并形成一个新的三边滤波器用来去除混合噪声。实验结果表明本文的脉冲噪声检测器具有较高的检测率,尤其对于椒盐噪声。而且,本文提出的去噪算法无论是定量评测还是图像的视觉质量都取得了较好的结果。 ②针对目前的特征描述子对光照变化不够鲁棒,提出了一种具有光照不变性的局部特征描述算子。其基本原理是:在发生光照变化时,尽管图像的像素值会发生变化,但其纹理结构即各像素的像素类型保持不变。具体而言,本文首先在预处理阶段进行直方图均衡化以及灰度值归一化,然后综合考虑像素灰度值的全局分布信息以及局部像素灰度值差异信息。其中,通过引入模糊推理规则,用来描述局部像素灰度值差异信息,即各像素的类型,主要包括4个方向的边缘像素,背景像素,以及孤立点(噪声)像素。为了提高算子的鲁棒性,本文还提出了一种基于梯度权值的图像特征子区域加权方法。在Oxford数据库中进行了实验测试,实验结果表明本文的局部特征描述算子不仅在光照变化特别是复杂光照变化下优于现有的描述算子,而且在其他如图像旋转、尺度缩放、图像模糊、图像压缩等变换下也表现较好。 ③在线性运行时间内得到全分辨率或像素级的显著性图,并且具有较低误检率,即更少地将背景区域误标记为显著性区域,在显著性区域检测领域中仍然非常具有挑战性。为此,本文提出了一种简单高效的显著性区域检测算法。具体而言,首先为每幅图像估计多幅鲁棒的背景图,具体是通过选取各像素的最佳邻域进行估计得到的。一旦获取了这些背景图,显著性图就可以简单地通过测量输入图像和背景图像之间的差异得到,这类似于视频处理当中的背景差分方法。为了进一步提升性能,本文还引入了高层先验知识:空间分布信息,即显著性区域大都位于图像中间而很少位于图像边界。在MSRA-1000数据库进行了实验验证,实验结果表明,无论是精确度还是运行效率,本文方法都优于现有的方法。由于本文方法的简单高效,因而同样可以适用于大规模数据库的图像分割、视频处理中的显著性目标提取等应用。 ④在图像目标识别中,最近提出的显著性编码方法无论是识别性能还是运行效率都取得了较好的结果,然而,它对噪声特征比较敏感,即鲁棒性不高。为此,本文结合全局显著性和局部差异性提出了一种新的特征方法,其中,全局显著性用来提高其稳定性和鲁棒性,局部差异性则用来描述视觉词典的隐藏结构信息。通过在Caltech-101等多个公共数据库中进行实验验证表明本文方法在别精度和运行效率都优于现有方法,而且对噪声特征更加鲁棒。另外,将我们的全局显著性和现有的显著性编码方法相结合还可以提升他们的性能。最后,本文将显著性检测融入词袋模型框架中,提出了显著性视觉词典。通过显著性图来衡量不同图像区域的局部特征的辨别力,然后只选取显著性较高的局部特征进行聚类形成视觉词典。通过在VOC2007数据库中进行实验验证,实验结果表明,当图像中目标物体明确时,显著性视觉词典可以显著提升目标识别性能;反之,显著性视觉词典可能会失效,因此,还需在后续工作中进一步深入研究。