视觉语言分析:从底层视觉特征表达到语义距离学习

被引量 : 0次 | 上传用户:caiyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络图像资源与日剧增,伴随而来的是围绕着网络图像为对象的众多研究课题,比如图像标注、图像检索、图像搜索结果聚类、重复图像检测、图像标签推荐、图像索引、图像分类、物体检测等。这些相关研究都需要从根本上解决一个问题,即视觉语义的表达和度量。因此该问题成为了网络图像研究的一个基本和核心的问题,也是目前学术界和工业界的重要研究方向。目前来看,视觉语义的表达和度量主要包含四个基本问题,即图像表达、图像相似度量、概念表达和概念相关度量。图像表达是指图像的特征以及特征的组织形式。图像特征可以生成有一定分辨能力的视觉单词、视觉短语。图像的表达形式也是多种多样,比如有忽略特征间关系的,有考虑在一幅图像中空间关系的或者共发频率的,等等。图像的距离度量是在特定图像表达之上通过机器学习的方法得到的。选择不同的图像特征和图像表达,图像的距离度量或许不一样。同样,概念表达是指概念的特征及其组织形式。概念的特征是以众多包含某个概念的图像集合上提取的视觉特征为基础建立的模型,它的通常形式是某个视觉单词或者短语出现的频率、共发频率、条件分布、或者转移概率。目前有很多概念建模的方法,比如二维隐马尔可夫模型、条件随机场模型等。本文的后一部分章节将详细讨论我们提出的视觉语言模型,保语义单词包模型,并和其他各种模型进行比较。概念距离度量是建立在特定的概念表达模型或者文本语义关联之上的概念之间的相关性度量。目前常用的度量方法包括词网距离、谷歌距离、以及我们提出的Flickr距离。本文提出了解决视觉语义的表达和度量的一系列模型和方法,既有底层特征的创新,也有高层语义模型和距离度量方面的创新。发表的工作涉及了以上提及的四个方面挑战,为视觉语义的表达和度量相关研究提供了有意义的探索。具体来说本文的成果和创新之处包括以下几点:1.本文提出了视觉语言模型,减小了视觉领域和文本领域的语义分析的鸿沟。我们认为图像的局部特征和文本中的单词一样是满足一定的语法顺序的。利用计算这些局部特征在空间位置上的条件分布来表达这种语法顺序,就可以近似的估测图像中的视觉语义。因为该模型和文本分析中的自然语言模型形式上类似,因此很多文本分析中的方法可以很容易在该模型中推广。实验结果表明该模型效果和很多复杂的模型相近,但运算速度远远超过其它模型,可以很好的应用在大规模数据上。2.本文提出了保语义单词包模型来处理语义鸿沟问题。我们提出了一种语义鸿沟度量方法,并通过选择从视觉特征到视觉单词的映射空间来最小化语义鸿沟,从而使得我们产生的词典可以有更好的分辨能力。实验也证明了利用最小化语义鸿沟方法生成的词典在图像标注问题中效果明显优于其他方法。3.本文提出了概率相关成分分析方法用来改进图像相似度量。概率相关成分分析将图像之间的边信息表达为概率的形式而不是传统的非0即1的二进制表达,提高了图像距离学习的精度。网络图像标注的应用显示出该方法比传统的距离学习方法更加高效和准确。4.本文提出了基于视觉特征的概念相关性度量方法:Flickr距离。该距离可以用来度量两个概念的不相关度。我们认为相关的概念同时出现在同一幅图像中概率比较大。因此计算和两个概念分别相关的图像的视觉语言模型的差别,就可以有效地度量概念之间的不相关度。和其它基于文本的概念距离度量方法不同,Flickr距离应用了概念相关的图片信息,从视觉角度度量了概念的相关性。在多媒体相关的应用问题中可以显著地提高性能。和人工建立的词网距离比较,Flickr距离可以自动更新以覆盖更多的新概念,和传统的谷歌距离比较,Flickr距离利用了视觉信息,实验证明其更加符合人类的认知。5.本文将传统的线性空间距离学习推广到了非线性空间距离,提出了Bregman距离函数学习方法。传统的Mahalanobis距离学习是需要学习一个距离矩阵。该距离度量在整个空间中是一致的。而样本在空间的分布疏密可能是有差别的。利用Bregma距离学习可能得到一个和样本相关的度量,考虑了局部分布的特性,因此可能更加准确。实验表明该方法可以比其他方法更好地处理高维空间的距离学习问题。6.本文将传统的静态距离推广到了动态距离,提出了QOSS子空间选取方法。我们认为观测角度(度量空间)不同,对样本的距离度量会产生很大的影响。因此在判断两个样本是否相近的时候,在多个子空间中度量比在单个子空间度量要准确。我们提出了根据样本特性,自动选取多个子空间的策略对样本相似性进行度量。在网络图像近似重复检测中,我们发现经过不超过5轮迭代,检测精度可以显著提高。
其他文献
“真实性”释义“真实性”概念的内涵和外延因科学技术发展而发生变化,本文试从纪录片史论的角度入手,分析一些代表性纪录片学派对“真实性”的认知,总结各个纪录片学派在阐
目的探讨加强护理干预对多发性颅内血肿Ⅰ期手术治疗患者的影响。方法选取2016年1月至2017年2月成都市第三人民医院神经外科收治的多发性颅内血肿Ⅰ期患者98例,随机分为2组,
微纳米通道的封闭是微纳米流体系统加工的关键,如何以高精度、低成本、简单快捷的方式封闭纳米沟槽结构已成为一个亟待解决的重要问题。本文在总结现有通道封闭技术的基础上,提
近几年来,云南省西双版纳州掀起了棚栽厚皮甜瓜的热潮,但甜瓜不同类型品种对环境条件要求不同.在棚栽厚皮甜瓜的过程中,病害发生较重,尤其是厚皮甜瓜霜霉病的发生、发展较快,
镁合金具有高的比强度,良好的加工性能和可回收性,是一种潜在的结构材料,这些优良性能使得镁合金对运输行业、汽车和航空行业都有很强的吸引力,然而镁合金由于自身的密排六方结构
玄学和理学分别在东晋南朝和宋代在江南成为显学。虽然它们对江南乃至全国都产生了重要的影响,但后者更具持久性。此系理学能服务于社会基层的家族结构和与科举制度、与佛学
宪法序言的弱规范性并不能证明宪法序言没有法律效力,然而,宪法序言的法律效力不能从一般法律规范的拘束力来理解,此种效力的特性是由宪法序言的特殊功能所决定的。宪法序言
导师刘金星教授在前人的经验基础上,结合自己积累数十年的临床治疗经验,总结出验方补肾养精汤,在临床治疗月经病的应用中收效较好。笔者有幸随师学习,现将其如何对该方加减化
本课题通过采用硅铁、硅钡、硅钙及稀土进行孕育的方法来改变化学成分对短流程灰铸铁力学性能的影响开始研究,以及改变冷却速度对短流程灰铸铁金相组织的影响,经多组实验数据
目前,网格曲面由于在数据交换和几何计算领域的大量应用已经获得广泛的关注,但除了等截面法,针对网格曲面的路径规划策略却很少。为此,本文针对带岛屿或孔洞复杂三角网格曲面