论文部分内容阅读
随着互联网技术的快速发展和社交网站的广泛应用,互联网上的图像和视频的数量以前所未有的速度增长。与文字相比,图像往往包含了更为丰富的信息,因此对于图像信息的挖掘和探索一直是计算机科学研究的一个重要的课题。为了在海量的图像里进行有效地检索和管理,图像一般都被标注了语义标签。图像自动标注研究(Automatic Image Annotation,AIA)是研究如何自动地根据图像的内容,将与其相关的语义标签赋给图像。在过去几年的研究中,很多与图像自动标注相关的方法被提出,并取得了很大的进展。然而,图像标注仅仅是标注了相关的物体是否在图像里出现,并没有具体地标明物体出现在图像当中的位置。因此,对图像的像素或区域进行语义标注的研究吸引了学术界越来越多的关注。 图像区域的自动标注就是根据图像区域的视觉内容,将一个与其相关的语义标签赋给它。一个有效的方法是在对图像区域进行标注的时候利用空间上下文信息,即考察相邻区域的标签和视觉内容。通常情况下,相邻的图像区域或像素往往具有相同的语义标签,这被称作“标签平滑性”。利用图像区域在空间上的平滑性,图像区域标注的效果有了明显的提升。但是,图像的局部区域通常具有有限和模糊的视觉内容。与图像的区域相比,图像整体的观测信息具有更为丰富和清晰的观测信息,这被称作“全局观测值”。对于图像的局部观测值来说,图像的全局观测值是一个有效的补充。 本文提出了一个基于条件随机场(Conditional Random Fields,CRF)的标注模型,结合图像局部观测值和全局观测值,同时将语义上下文建模融合到模型当中,通过利用不同尺度的图像观测信息和语义标签之间的相关关系来提高标注的效果。条件随机场能够有效地利用图像局部的观测信息,图像全局观测值的引入则是对局部观测值一个有效的补充,弥补了图像局部的视觉信息的不足。在图像当中,很多语义标签往往会同时出现,这些语义标签具有相关性。图像标注的相关研究表明,语义上下文关系的利用能有效地提高图像标注的效果。在引入图像全局观测的同时,我们也对图像级别语义上下文关系进行建模,进一步提高对图像全局观测值的挖掘利用效果。在条件随机场框架下,图像局部观测值和全局观测值的参数能够通过标准参数学习方法得到。 我们在两个公用数据集——MSRC数据集和Corel数据集——上进行了系统的实验,验证了本文提出的条件随机场(CRF)模型的标注性能。从实验的结果可以看出,本文提出的模型比目前较先进的标注模型在标注准确性上有了明显地提高。实验证明了模型的性能提升来自与局部观测值和全局观测值的结合.,而不是来某一种单一一种方法。实验同时证明了在引入图像全局观测值的基础上进行语义上下文建模,模型的性能有了进一步的提高。