论文部分内容阅读
基于内容的图像检索存在图像原始的底层特征与用户抽象的深层语义之间的“语义鸿沟”,目前缩小“语义鸿沟”的方法还不够理想。随着Web2.0的发展,越来越多的互联网用户在向互联网上传图片时,同时会附加相应的文本信息对图片予以描述或说明。这些信息对于分析图像的语义内容、挖掘图像检索用户意图具有重要作用。以往研究者主要偏重从机器学习的角度对图像自动标注进行研究,对于如何有效利用这些信息并没有给予充分的考虑与重视。基于机器学习的图片自动标注方法需要大量的参数优化与复杂的学习过程,不能快速的对大量网络图片进行有效的标注,基于此本文设计并实现了基于Web的图像自动标注方法。该方法首先利用图像的文本化表示对图像进行特征提取;然后使用图像检索技术,检索出与要标注的图像相似的图像列表;通过对这些图像的周围文本信息进行综合处理,最后挖掘出待标注图像丰富的语义标注。本文的主要贡献概括为如下几部分:(1)首先,通过使用图像处理技术和快速流式K-means聚类算法,实现图像的文本化表示,将文本领域的方法应用到图像处理中,从而简化图像检索与处理时的工作。(2)再次,为有效的分析基于机器学习的图像自动标注方法的特点,在图像文本化的基础上,实现两种当前效果较好的多类标分类方法MLKNN和MFoM。在此基础上分析基于机器学习的图像自动标注方法的优缺点。(3)最后,为克服基于机器学习的图像自动标注方法的缺点,解决快速增长的互联网图片的自动标注问题。本文通过利用互联网图片的周围文本信息对图像进行有效的语义标注,设计并实现了基于Web的图像语义自动标注方法的整体架构以及详细算法。该方法综合利用图像的文本化表示、基于内容的图像检索方式以及自然语言处理技术对图像进行自动标注。实验结果表明,当图像数据规模较大、图片语义标签较多的情况下,基于Web的图像自动标注方法在准确率和召回率方面,都明显优于基于机器学习的图像自动标注方法。该方法不需要大量的参数优化和复杂的学习过程,避免对训练集进行大量的人工标注过程,能够从相对“稀少”的图像标签中挖掘出相对丰富的语义内容。