基于语义上下文建模的图像语义自动标注研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:starylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于图像语义自动标注(Automatic Image Annotation, AIA)在基于关键词的图像和视频的检索与浏览上具有巨大的应用前景,AIA在近年来受到了人们的广泛关注。解决AIA问题的瓶颈在于图像底层的视觉特征与高层的语义概念之间存在“语义鸿沟”(Semantic Gap),即图像视觉特征相似并不能保证图像语义一致。为了跨越这条“语义鸿沟”,研究者们基于生成模型和判别模型提出了多种图像语义自动标注的方法。此外,语义概念之间的相互关系已经被应用于图像语义自动标注,并且取得了令人鼓舞的结果。通过对语义上下文建模,生成模型和判别模型的性能都得到了改进。本研究工作提出了一个马尔科夫随机场(Markov Random Field, MRF)标注框架用于对图像语义自动标注中的语义上下文建模。与先前视觉识别工作中对图像像素或图像区域空间位置关系建模的MRF不同,我们提出的MRF是在语义概念上构造,用于对语义概念之间的相互关系建模。具体来讲,MRF中的点表示语义概念,而边表示语义概念之间的相关性。每个点上有一个二值标签来表示相应的语义概念在给定的图像中出现或不出现。在MRF标注框架下,我们提出了一种新颖的多马尔科夫随机场(Multiple Markov Random Field, MMRF)上下文相关模型对语义上下文建模。MMRF通过构造语义层的MRF模型来改进AIA中传统生成模型的标注结果。具体来讲,我们基于生成模型估计的图像视觉特征与语义概念共同出现的联合概率,设计了MRF新颖的势函数。为了准确地捕获不同语义概念的语义,我们为每一个语义概念构造自身的MRF。此外,我们高效地解决了MMRF的参数估计和模型推理问题。为了进一步发掘语义上下文相关模型的能力,我们在MRF标注框架下提出了一种新颖的判别条件随机场模型对语义上下文建模,称之为最大边缘条件随机场(Maximal Margin Conditional Random Field, MMCRF)上下文相关模型。MMCRF能够同时从语义层次与视觉层次上对语义相关性建模。具体来讲,我们基于线性判别模型设计了MMCRF的势函数,并提出了拆分的Hinge损失在最大边缘框架下估计MMCRF的参数。模型的训练转化为采用我们推导出的上下文核函数求解一系列独立的二次规划问题。我们在公用的标注数据集:Corel图像数据集和TRECVID-2005视频数据集上进行了实验来评估MMRF和MMCRF的标注性能。实验结果表明,与当前最先进的标注方法相比,我们的模型能够显著地改进标注性能。特别是MMRF在Corel数据集263个关键词上的平均查全率和平均查准率分别达到了0.36和0.31,至今仍然是Corel数据集上一个很有竞争力的结果。
其他文献
学位
人群仿真是基于计算机图形学、力学、心理学、社会学等多种学科的一种仿真建模技术,已经被广泛地应用于许多领域。现实社会中的公共安全及建筑设计领域,要求精度和效率更高的仿
近年来数据挖掘技术在各个领域取得巨大进步,但如何处理带误差的不确定性数据仍然是数据挖掘算法的一个挑战。传统的数据挖掘算法通常都假设收集到的数据是精确的,没有丝毫误差
人脸识别技术作为一项生物特征识别技术具有十分重要的意义。人脸识别技术涉及到了计算机技术,图像处理,模式识别和机器视觉等多个领域。一个完整的人脸识别系统,应该具有两
传统的分类算法主要是针对处理确定性数据分类的情况,确定性数据是指训练数据集和测试数据集中的每一个数据样本的每一属性值都是唯一确定的。处理确定数据分类问题的方法很多
针对超立方体结构的多处理机系统出现故障的问题,本文对容错超立方体网络的连通性进行了研究。通过对超立方体网络的局部连通性概念进行分析,提高了超立方体网络的容错能力。根
随着3G移动通信网络的快速发展和全面推广,越来越多的用户开始关注手机多媒体信息,不仅对其内容提出了更丰富的要求,而且更注重移动流媒体服务的实时性。然而传统的流媒体客
基于高性能计算机应用环境的危险性和复杂性,其互连网络的可靠性与容错性必须得到保证。但是,网络元件的失效或故障往往都具有随机性和不可预测性,这给互连网络可靠性的研究带来
闪存作为一种新型的非易失存储介质,诞生于20世纪80年代末,具有高速、抗震、功耗低以及小巧轻便等优良特性。而且闪存作为一种纯电子设备,能够克服传统的机械设备所造成的一些缺
随着虚拟现实技术的飞速发展,它的应用已经渗透到工业、科技、军事、教育、医疗、航天及商业等各个领域。场景漫游技术是虚拟现实研究中的一个热门方向。三维虚拟场景漫游系统