论文部分内容阅读
由于图像语义自动标注(Automatic Image Annotation, AIA)在基于关键词的图像和视频的检索与浏览上具有巨大的应用前景,AIA在近年来受到了人们的广泛关注。解决AIA问题的瓶颈在于图像底层的视觉特征与高层的语义概念之间存在“语义鸿沟”(Semantic Gap),即图像视觉特征相似并不能保证图像语义一致。为了跨越这条“语义鸿沟”,研究者们基于生成模型和判别模型提出了多种图像语义自动标注的方法。此外,语义概念之间的相互关系已经被应用于图像语义自动标注,并且取得了令人鼓舞的结果。通过对语义上下文建模,生成模型和判别模型的性能都得到了改进。本研究工作提出了一个马尔科夫随机场(Markov Random Field, MRF)标注框架用于对图像语义自动标注中的语义上下文建模。与先前视觉识别工作中对图像像素或图像区域空间位置关系建模的MRF不同,我们提出的MRF是在语义概念上构造,用于对语义概念之间的相互关系建模。具体来讲,MRF中的点表示语义概念,而边表示语义概念之间的相关性。每个点上有一个二值标签来表示相应的语义概念在给定的图像中出现或不出现。在MRF标注框架下,我们提出了一种新颖的多马尔科夫随机场(Multiple Markov Random Field, MMRF)上下文相关模型对语义上下文建模。MMRF通过构造语义层的MRF模型来改进AIA中传统生成模型的标注结果。具体来讲,我们基于生成模型估计的图像视觉特征与语义概念共同出现的联合概率,设计了MRF新颖的势函数。为了准确地捕获不同语义概念的语义,我们为每一个语义概念构造自身的MRF。此外,我们高效地解决了MMRF的参数估计和模型推理问题。为了进一步发掘语义上下文相关模型的能力,我们在MRF标注框架下提出了一种新颖的判别条件随机场模型对语义上下文建模,称之为最大边缘条件随机场(Maximal Margin Conditional Random Field, MMCRF)上下文相关模型。MMCRF能够同时从语义层次与视觉层次上对语义相关性建模。具体来讲,我们基于线性判别模型设计了MMCRF的势函数,并提出了拆分的Hinge损失在最大边缘框架下估计MMCRF的参数。模型的训练转化为采用我们推导出的上下文核函数求解一系列独立的二次规划问题。我们在公用的标注数据集:Corel图像数据集和TRECVID-2005视频数据集上进行了实验来评估MMRF和MMCRF的标注性能。实验结果表明,与当前最先进的标注方法相比,我们的模型能够显著地改进标注性能。特别是MMRF在Corel数据集263个关键词上的平均查全率和平均查准率分别达到了0.36和0.31,至今仍然是Corel数据集上一个很有竞争力的结果。