论文部分内容阅读
随着计算机技术和网络技术的飞速发展,互联网上的图像资源信息极度膨胀,如何快速、准确地从海量Web资源中查找用户感兴趣的图像成为一个非常具有挑战性的任务。目前主流的Web图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。基于文本的图像检索是当前商业图像搜索引擎采用的主要方法,它面临的问题是只利用了Web图像的间接文本检索图像,没有利用图像本身的内容信息;基于内容的图像检索则是当前图像检索学术研究领域的主流方法,它面临的主要困难是“语义鸿沟”问题,即图像的底层视觉特征(如颜色、纹理、形状等)不能有效描述其高层语义概念。Web图像所处的Web环境使得它具有明显的多模态特性,如何充分利用并融合Web图像的多模态信息,有效满足用户检索图像的需求,直到今天依旧是图像检索领域中的研究难点。针对以上情况,本文对面向用户的Web图像检索课题中的若干问题进行了探讨,包括基于文本和视觉特征融合的图像标注、底层视觉特征与高层语义间的“语义鸿沟”、基于用户兴趣模型的图像检索、相关反馈技术等。首先提出了面向用户的图像检索框架。它支持多模态用户信息需求的查询处理。同时利用支持向量机在相关反馈的过程中为图像建立并更新语义,求出图像间的二次距离,增加了图像间的语义区分能力,使被检索出的图像在语义上更加接近示例图像。本文提出的基于HSV空间的20色非均匀量化算法与人对色彩的主观视觉模型吻合程度较好。该算法和传统色彩量化算法相比,降低了特征向量的维数,计算量小,受光照强度影响较小,提高了检索的性能。本文利用多类SVM融合颜色、纹理、形状等多个视觉特征,对图象进行分类,实验结果证明了该算法的有效性。为了提高Web图像自动标注的可靠性,提出了基于文本和视觉特征融合的Web图像自动标注算法。首先利用自动抽取图像上下文信息,结合Web图像名称、页面主题、图像URL、图像ALT等属性组成特征集,以WordNet作为语义词典库,提取出文本关键字;接着利用Mean shift算法对图像进行分割,并采用显著图方法提取视觉突出性的区域;然后利用视觉与标注字之间的相关性,对自动提取的标注字进行过滤,并采取PLSA方法对图像进行语义聚类,最后形成图像与文本关键字联系的语义网络。同时,本文建立了用户兴趣模型,通过显式跟踪和隐式跟踪相结合,不断完善用户的兴趣信息,可以为用户提供个性化图像检索服务。实验结果表明,使用用户兴趣模型提高了图像检索系统的性能。最后完成了一个面向用户的Web图像检索系统,总结了全文的工作,并进一步对本课题今后的研究工作进行了展望与设想。