论文部分内容阅读
图像的自动标注通过利用图像处理、机器学习、计算机视觉等技术来建立图像中的物体与语义标注之间的映射关系,从而能够更为有效的对海量图像数据进行组织、管理、分析和检索。图像的区域标注是图像自动标注的一个重要的研究分支,其目标是对图像中不同物体的类别及其所在区域进行识别,在图像内容的理解、图像的语义检索等领域被广泛研究。然而,由于图像认知的复杂性,图像的低层视觉特征和高层语义信息之间存在着“语义鸿沟”,直接对图像区域的视觉特征和类别信息之间的对应关系进行建模非常困难,因此目前图像区域标注的准确率并不理想。近年来,越来越多的学者研究利用上下文信息来提高图像区域标注的准确性。目前描述上下文信息有两种常用的策略,一种策略是对图像提取描述上下文信息的特征,另一种策略是建立描述上下文的分类模型,其中最常用的方法之一是使用概率图模型。两种策略相比,使用概率图模型能够描述更为复杂的上下文信息,从而更好的提高图像标注的效果。本文中,我们在利用概率图模型来对上下文信息进行建模,从而提高区域标注的准确性等方面,完成了如下几项工作:(1)主题模型,如LDA等可以对图像区域之间的共生关系进行建模,从而提高标注的准确性,在图像的整体标注中取得了较好的效果。然而在利用主题模型对图像进行区域标注时,需要将主题节点与类别节点进行映射,但是该方法会降低主题节点描述共生上下文的能力,从而影响区域标注的准确性。针对该问题,本文提出了一种有监督主题模型csLDA (class-specified Latent Dirichlet Allocation)。该方法不仅可以对图像区域的视觉关键词之间的共生关系进行建模,还可以对图像区域的类别标签之间的共生关系,以及视觉关键词与类别标签之间的共生关系进行建模。实验结果表明,该方法可以有效利用区域之间的共生上下文来提高图像标注的准确性。(2)目前的研究工作中通常只考虑了图像区域之间的共生关系,没有考虑像素级别的共生上下文。然而,图像分割的误差会对区域之间的共生上下文建模造成不利影响,从而进一步影响到图像标注的效果。与区域之间的共生上下文相比,像素级的共生上下文不会受到图像分割误差的影响。基于该思想,本文设计了一种结合图像分割与标注的主题模型SPLSA (Supervised Probability Latent Semantic Analysis)。通过利用图像像素之间的共生关系来对图像的初始分类结果进行优化;另一方面,还可以利用图像区域的标注结果来改进图像分割的效果。实验结果表明,通过对像素之间的共生上下文进行建模,可以有效提升图像分割和标注的准确性,在分割困难的图像数据集上具有良好的表现。(3)共生关系和空间关系是两种不同的上下文信息,目前研究工作通常只使用单一的上下文信息,或者通过主题模型结合MRF (Markov Random Field)模型来描述主题节点之间简单的邻域关系,从而达到结合两种不同上下文的目的。然而,该方法受限于主题节点的数量,不能有效描述共生上下文,同时MRF的空间描述能力有限,因此并不能有效的结合两种不同的上下文信息。针对该问题,本文提出了一种结合共生关系与空间上下文的图像区域标注模型LDA-CRF (Latent Dirichlet Allocation-Conditional Random Field).该方法通过利用LDA模型,对图像中区域之间的共生关系进行建模,同时结合CRF模型来对区域之间的空间关系进行建模。实验结果表明,通过结合两种不同的上下文进行区域标注,可以明显提高图像区域标注的准确性,该模型适用于对特征维度较低的数据集进行精确的区域标注。(4)图像中区域之间存在着空间关系,现有的研究工作通常只考虑相邻区域之间的空间关系。在对长距离空间关系进行建模时,会面临计算复杂度的问题。忽略长距离的空间关系会造成不必要的信息损失,从而影响到图像区域标注的准确性。针对该问题,本文提出了一种基于支持区域的长距离空间上下文描述模型ASRG (Approximated Supporting Region Graph)。通过引入支持区域来描述图像中区域之间的空间关系,同时设计了一系列支持区域选择机制,对图像中区域之间的长距离空间上下文进行高效的描述和建模,从而对图像进行区域标注。实验结果表明,该方法在标注准确率和标注速度上都取得了良好的效果,可以对大量的图像数据进行快速的区域标注。