论文部分内容阅读
近十几年来,随着计算机技术和多媒体技术的迅猛发展、数码产品的普及以及因特网应用的深入人心,网络上的多媒体数据呈现出爆炸式的增长。面对因特网上的海量多媒体数据,特别是图像数据,如何对其进行有效分析、快速检索、合理组织,是一项非常重要同时也是非常有挑战性的工作。视觉上下文分析研究图像和特征的内在的联系,是解决这一问题的有效手段。最近,随着局部视觉特征的提出,在计算机视觉和多媒体领域,越来越多的研究者开始关注基于局部特征的视觉上下文分析的研究。目前,基于局部特征的视觉上下文处理方法虽然取得了一定进展,然而由于低层特征和高层语义概念之间语义鸿沟的存在,视觉上下文分析还有很多问题需要研究。本论文对基于局部特征的视觉上下文进行了深入研究,根据具体场景,探索不同的上下文关系,分别应用用于图像重排序、典型图像挑选、部分拷贝图像检索、自动车牌检测。本论文的主要工作和创新之处归纳为以下几点:(1)论文提出了一种隐视觉上下文学习方法,基于文本检索返回的图像结果,针对其不相关性和冗余性问题,进行图像重排序和典型图像挑选。在隐视觉上下文学习模型中,论文一方面发掘图像和视觉单词间的隐语义关系,另一方面分别构建视觉单词和图像的链接图。通过利用图分析的方法,发掘视觉单词和图像的重要性。基于图像的重要性,可以进一步和基于文本检索的图像排序结果相融合,进行图像重排序。此外,在隐视觉上下文学习结果的基础上,论文提出了一种加权集覆盖方法,用于挑选出代表性的典型图像。(2)论文提出了一组基于局部视觉特征几何上下文的编码方法,包括空间编码、环编码和几何编码,用于大规模的部分拷贝图像检索中的快速几何校验,极大的提高了检索精度。由于传统的单纯基于局部特征量化方法往往引入许多几何不一致的匹配,影响图像间的相似度比较,降低检索精度。本论文基于经典的局部特征SIFT(Lowe,2004),提出了一组编码方法对图像中视觉单词间的相对几何位置关系进行简洁有效表达。该编码表达可实现平移不变、尺度不变、或(和)旋转不变。基于几何上下文编码表达,论文提出了一种新颖的几何校验算法,可以快速发现全局几何不一致的匹配。针对几何上下文编码可能存在的一些不足,论文提出了一些增强策略,包括仿射变换估计增强、查询扩展增强等,可进一步改善检索结果。(3)论文提出了一种新颖的主视觉单词发现方法,针对车牌字符训练出一组具有丰富几何上下文的视觉单词,用于自动车牌检测。针对传统的基于图像边缘图的车牌检测方法的不足,论文从局部特征几何上下文的角度出发,提出了一种新颖的主视觉单词生成的算法。论文针对每个车牌字符训练得到一组主视觉单词,这些主视觉单词含有丰富的几何信息,如尺度、主方向、相对位置、局部描述子等;然后对测试图像,可以通过与其中的局部特征匹配的主视觉单词的几何信息,准确估计出车牌的位置。该方法生成的主视觉单词具有很强的区分能力和表达能力,而且和特定的语义概念(车牌字符)关联。总而言之,本文基于局部视觉特征,从新颖独特的视角出发,分析和挖掘蕴含在图像中的丰富的视觉上下文信息,应用于多媒体处理的几个场景。论文通过大量充分的实验,证明了所提出方法优于传统的经典算法。