论文部分内容阅读
图像在人们的日常生活和信息交流中有着十分重要的意义。特别是随着互联网设备如笔记本、手机和平板电脑等越来越普及,图像的数量呈现爆炸式增长,与此同时图像的内容也越来越多样化,如何更好地理解图像中所包含的内容对于有效利用互联网中的图像信息具有非常重要的意义。除此之外,在人机交互、机器人感知的过程中,视觉信息是作为其了解周围环境的重要渠道,如何对视觉输入信息进行更好的理解可以有效提升机器人的感知能力,同时辅助其做进一步的分析和决策。理解图像内容是有效利用图像内容信息的重要前提,是各种网络应用如基于内容的图像检索、机器人场景感知、多模态信息关联以及许多其他潜在图像应用的必要技术。 由于图像内容和语义描述之间一直存在语义鸿沟,因此对图像进行理解并转化为语义信息也就成为一个重要的研究方向。目前大多数的图像理解方法主要集中在通过分类、检测、聚类等方法实现对图像内容进行理解,然而图像中的内容是多种多样的,其可以包含物体信息、物体的属性信息、物体与物体之间的关系、附加在物体上的隐含信息等,这使得单独通过一个或者几个概念很难对图像的内容形成准确和全面的描述。 人类可以天然地对图像内容进行丰富和多样的理解,这不仅仅是由于人具有视觉识别的能力,还因为人具有推理、联想等能力。人们可以自然地将这些能力综合运用达到对图像内容的理解。因此本文研究使用知识推理帮助理解图像内容的方法,旨在通过结合视觉识别和知识推理增强对图像内容理解的丰富性和多样性。 在研究知识推理和视觉识别的结合方式中,本文主要研究了两种方法,分别为:1)基于不确定性推理的视觉知识图谱构建;2)基于表示学习的图像问答。前者是对整幅图像的内容进行识别和推理,后者是根据用户问题进行局部推理。 1.考虑到图像内容理解不仅仅需要视觉知识还需要常识知识,同时视觉识别的概念具有一定的不确定性。本文提出通过构建常识知识图谱存储与视觉信息相关的常识知识,利用多种视觉识别方法得到的视觉概念构建视觉图谱。同时通过常识知识图谱对视觉图谱进行修正提高视觉图谱的准确率。利用规则进行推理得到对于整幅图像进行表示的视觉知识图谱,其中使用主观贝叶斯推理解决在推理过程中不确定性传递问题。相比于确定性推理和单纯的视觉识别方法,准确率都有所提高。 2.对图像问答,本文在卷积神经网络框架下针对不同视觉信息设计相应的视觉识别方法,同时将视觉识别与表示学习方法TransE相结合,针对与用户问题相关的答案候选项使用局部推理选取最终答案。通过综合用户问题信息、视觉识别信息和语义向量信息综合考虑推导出答案,相比于单纯使用视觉识别和结合视觉特征的方法,准确率都有提升。此外,该方法在回答用户问题的同时可以对答案在图像中的位置进行显示。 综上所述,本文将知识推理与视觉识别相结合,实现对图像内容更加多样的理解和表示。对于视觉知识图谱构建,本文提出的方法可以挖掘图像中更加丰富和多样的信息并以知识图谱形式展示,可以实现图像内容与其他模态信息在语义层面更深入的关联;对于图像问答,本文方法由于融合语义层面的信息,因此具有很好的语义可解释性,同时由于将语义概念向量化因此可以与其他信息在特征层面进行融合。本文的研究工作对于利用知识推理辅助图像内容的深入理解和表示有重要的理论意义和应用参考价值。