论文部分内容阅读
随着信息技术和互联网的飞速发展,网站数量激增,加上twitter,微信,微博等新媒体的广泛应用,信息资源已进入海量数据时代。在这些资源中,不仅包括易于处理的文本数据,还包括大量的图像、视频等多媒体数据。与文本相比,图像显得更为直观、生动,加上便携图像获取设备如智能手机的普及。数字图像的数量出现了飞速增长,几乎每年增加一倍。如何快速、准确地从海量网络资源中检索到感兴趣的Web图像成为迫切需要解决的问题。Web图像具有信息量高、数量巨大、非结构化、高层语义多样和不确定性的特点。使得信息检索领域的相关成果很难直接应用到Web图像检索领域。如何综合运用数字图像处理、模式识别、机器学习、信息检索等理论和技术,研究出性能高效的Web图像检索系统,为用户提供稳定可靠,准确度高的图像检索服务,具有重要的理论意义和现实价值。Web图像嵌入在网页中,不仅包含丰富的视觉信息,其所在网页的文本中也包含了大量与Web图像相关的信息。关于Web图像检索的研究主要基于这两类信息展开,包括三个方向:基于Web文本信息的检索模型TBIR、基于Web图像内容的检索模型CBIR和融合文本与图像信息的检索模型ABIR。TBIR从Web图像所在网页的文本中提取与Web图像相关的关键词用于Web图像的索引和检索。CBIR从Web图像的底层视觉信息中提取视觉特征用于Web图像的索引和检索。ABIR综合利用文本和图像信息用于Web图像的索引和检索。显然,同时使用文本和图像信息的ABIR具有更大的优势,但是这两种信息的结构不同(一个属于高层语义关键词信息,一个属于图像底层视觉特征信息),很难直接融合,怎样无缝地融合两者的信息依旧是Web图像检索领域的研究难点。直接使用图像视觉特征检索图像,需要用户提供样图或草图,给用户的图像检索造成极大的不便。而要将图像视觉特征转换为高层语义关键词,又存在“语义鸿沟”问题。因此,怎样将图像视觉特征映射为高层语义关键词是另一个要解决的难题。这两个难点导致ABIR的研究进展缓慢,还需要进行深入的研究。针对ABIR存在的问题,本文提出了一种基于网页信息和图像特征的Web图像检索模型,该模型将Web图像检索的信息源从两个(文本信息和图像特征)扩展到三个(文本信息、图像特征和图像中包含的文字),增加了Web图像索引的信息源。同时,通过图像自动标注解决“语义鸿沟”问题,将图像视觉特征映射为高层语义关键词。最后,利用贝叶斯推理网将三种信息源的关键词无缝地融合在一起,解决了异构信息的融合难题。词汇相似度计算是解决“语义鸿沟”问题的基础,也是本文提出图像检索模型中融合三种信息源的前提。因此,本文第四章详细介绍了基于知网的词汇相似度计算方法。图像中的文本分为场景文本和人工文本,这两种文本都与图像的内容和高层语义有很大的相关性。因此,将图像中包含的文本作为图像检索的信息源之一具有重要的意义。本文提出了基于笔画宽度检测的Web图像文本识别算法,将图像中的文字识别出来,增加了Web图像检索的信息源。图像自动标注是解决“语义鸿沟”问题的有效手段。本文提出的图像自动标注模型,通过三种经典的自动标注算法生成候选关键词集,然后通过词汇相似性计算候选关键词之间的内聚性和候选关键词与图像文本、Web文本关键词之间的一致性,将内聚性和一致性低于阈值的关键词作为“噪音”关键词从候选关键词中过滤掉。同时,将内聚性和一致性作为关键词的权重,为使用贝叶斯网络进行信息融合奠定基础。贝叶斯推理网络具有融合多种信息的能力,是一种基于概率的、不确定性推理网络。使用贝叶斯推理网的关键是如何确定各事件的初始概率和条件概率,本文引入了Page Rank(网页排名)确定初始概率,通过TF/IDF计算条件概率,构建了完备的贝叶斯网络图像检索网络。实验证明,本文提出的Web图像检索方法具有较高的图像检索质量。