论文部分内容阅读
图像数据作为生活和学习中一种至关重要的信息载体,是网络环境中不可缺少的数据信息资源。海量的图像数据不断地被创造,并且在互联网上发布、传播、分享和交流,如何在浩瀚的图像数据海洋中迅速而准确的查找到自己需要的图像数据,是目前图像检索领域研究的热点问题。由于之前的基于文本和基于内容的图像检索发展均受到了种种因素的限制,就出现了基于图像标注关键字的语义图像检索,因此对图像进行高层语义标注是关键。然而由于“语义鸿沟”的存在,也即人对图像的相似性判别“语义相似”与计算机对图像相似性判别“视觉相似”之间的差距的存在,使得建立在图像视觉特征信息上的图像语义自动标注的性能远不能达到理想的效果。本文主要做了以下研究:1.手工标注获取训练集具有诸如:费时、费力、主观性强等缺点,并且对于几乎无限的Web图像数据来说,手工获取的训练集显得很渺小,因此如何自动获取高质量的训练集就显得尤为重要。Web图像与传统图像相比有自身明显的特点,因为Web图像存在于网络环境中,除具有其他图像所具有的视觉特征信息外,通常还关联着丰富的文本信息,如图像数据的文件名称、周围解释说明文本、图像所属网页标题、替代文本等。2.随着社会网络(Social Network)的发展,各种多媒体资源都在网络上共享、传播。Flickr就是提供图像共享的网站,上面已经上传了几十亿张不同种类不同主题的图像,而且,用户在进行上传的时候都对图像进行了不同程度的标注,并且也可以对其他用户的自己比较感兴趣的图像进行标注。这样就产生了大量的标签资源,即社会标签。如果能利用这些社会标签来对训练集进行标签扩展或者修改,将会很大的提高训练集的标注质量。最终会提高有指导的图像语义自动标注的性能。并且每一幅图像都属于特定的社群主题,这些社群主题的主题信息和图像的高层语义信息具有很大的相关性。因此挖掘出主题的潜在信息能提高标注的性能。本文主要创新点如下1.融合图像视觉特征和社会标签的训练集自动获取。首先采用基于TF-IDF思想利用Web图像的带约束的关联文本信息来获取图像的初始标签,即初始训练集。然后利用融合视觉特征和社会标签对初始训练集中的标签类别进行扩展,在利用社会标签进行扩展时,考虑到社会网络上的图像标签的复杂性和个异性,对这些标签的做了预处理工作,多标签的图像进行剔除噪音标签和去掉无关标签,无标签图像则根据图像所在的社群主题信息来挖掘出图像的潜在语义信息。进而得到和初始训练集中图像的关键词和视觉特征都相似的图像。从而提高训练集的质量。在融合图像的视觉特征和社会标签对初始训练集进行标签扩展时,基于图像相似具有传播性提出了一种新的图像视觉特征和标注词语义都相似的图像邻域集自适应获取算法。通过比较相邻两幅图像的视觉差异,来自适应的确定给定图像的语义关键词和视觉特征都相似的邻域集大小。2.基于主题分析的图像语义自动标注,对自动获取的大规模高质量的训练集,采用潜在语义分析的奇异值分析SVD方法对训练集图像分析建模得到主题模型,进而利用这些图像所在的主题类的主题信息来对图像进行语义自动标注,获得初始标注关键词集合,然后利用同主题内潜在的主题信息和不同主题间视觉近邻图像的标签来对初始标注关键词集合进行扩展,以提高标注的性能。