论文部分内容阅读
随着数码照相机、具有照相功能的手机等设备的迅速普及,数字图像呈现出爆炸式地增长趋势,而且随着互联网的飞速发展,越来越多的人能够更加方便、快捷、经济地使用这些图像数据。目前面临的问题不再是缺少图像数据资源,而是如何在浩如烟海的图像数据中找到自己所需要的信息。如何对规模庞大的数字图像进行快速高效的检索,成为亟待解决的问题。现有的图像检索系统主要利用图像的语义标注词进行基于语义的图像检索,但是随着图像数量的激增,人工进行图像标注显然不现实。因此,对图像进行自动语义标注成为图像检索领域的重要问题,得到了学术界和企业界越来越多的关注。鉴于已有图像标注方法的标注准确性还未达到令人满意的程度,因此如何对已标注图像进行标注结果的优化与改善成为了图像的语义标注这一研究领域的重要问题之一。本文针对不同类型的图像,提出了一系列有针对性的语义标注以及语义标注改善的方法,主要研究成果和创新点表现在以下五个方面:(1)提出了一种基于LDA主题模型的图像标注方法。首先,利用图像训练集建立一个视觉词袋模型,并利用LDA模型计算待标注图像和标注词词典中各标注词之间的相关度,从而获得图像的初始标注。接下来,提出一种基于搜索的标注词扩展方法,将初始标注提交到图像搜索引擎,从搜索引擎返回的结果中选取与待标注图像相似的图像,进而从这些相似图像的周边文本中获取图像的扩展标注词。最后,将初始标注词集合和扩展标注词集合进行合并,获得最终标注。(2)提出了一种面向社会网络图像共享社区的图像标注方法。该类网站允许用户在上传图像时为图像提供标签,我们利用用户提供的标签对图像进行语义标注。首先,将待标注图像分割后的图像区域作为样例数据点,对用户提供的标签进行过滤后得到图像的初始标签,并将其所对应的图像视觉特征作为待排序的数据点,利用流形排序算法对图像的初始标签进行排序。接下来,利用Flickr提供的API函数以及加权投票策略对排序位次高的初始标签进行扩展,从而得到扩展标签。最后,将排序位次高的初始标签集合和扩展标签集合合并,得到图像的最终标注。(3)提出了一种面向图像共享社区中个人相册的图像标注方法。首先,利用位置敏感哈希函数将图像的SIFT描述符映射到哈希桶中,并将每个哈希桶看作直方图的一个柱,把待标注图像转化为直方图,通过计算直方图的距离得到两幅图像之间的视觉相似度,从而对个人相册进行去除重复图像的处理。然后,利用图像的视觉特征和图像GPS坐标构造三分图,通过对三分图的划分进行个人相册中图像的聚类。将Core15K数据集作为训练集,建立视觉词袋模型,为该数据集标注词词典中的每个标注词求出与之对应的视觉词语向量。对个人相册聚类后得到的图像簇,通过视觉词袋模型求出图像簇所对应的视觉词语向量,从训练集的标注词词典中选择与其相关度高的词作为图像簇的标注。(4)提出了一种基于二分图增强学习算法以及概念本体推理的层次化Web图像标注方法。首先,从Web页面中抽取图像的初始标注,通过概念本体对初始标注进行推理,将初始标注和经过概念本体推理得到的层次化扩展标注作为图的顶点,构造二分图。然后,通过二分图增强学习算法对初始标注和扩展标注进行排序,并提出了一个标注词选择策略,从排序后的初始标注词集和扩展标注词集中选取图像的最终标注词。(5)提出了一种基于图划分和图像搜索引擎的图像标注改善算法。该算法通过对待标注图像的候选标注词进行去噪处理,提高标注的准确性。算法的核心思想是将候选标注词作为图的顶点,将标注词之间的相关度作为边的权值,从而将图像标注改善问题转换为图划分问题。我们用两个参数对标注词间的相关度进行加权处理后计算出边的权值。第一个参数是根据图像搜索引擎返回结果计算出的候选标注词与待标注图像视觉特征之间的相关度,第二个参数是候选标注词在待标注图像所属页面中的重要程度,此参数仅适用于Web图像。然后,用启发式最大割算法对构造出的图进行划分,最后从图划分后得到的两个标注词集中选择其一作为最终标注。本文对图像的语义标注及其改善问题的研究,有助于理解图像中包含的语义概念,提升图像检索系统的性能,对多媒体领域的研究也具有较大的意义。