智能视觉问答中关键问题的理论与方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:waly7208346
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是近年兴起的一项人工智能研究热点。它指的是模型根据给定的图像信息回答人类所提出的问题。这些问题的内容涵盖了物体识别、场景感知、数目计算及视觉推理等各种生活中常见的任务。有别于传统的计算机视觉或自然语言处理的任务,视觉问答需要模型对给定的文本信息和视觉信息都进行充分理解,并要具备一定的推理能力才能够准确回答问题。因此,视觉问答也常被认为是一项终极人工智能任务(Ultimate AI task).本文的内容是针对视觉问答中的关键问题进行理论及方法研究。在第一章节中,本文先对视觉问答现有的数据集及代表性工作进行系统性介绍,然后对视觉问答发展当中的主要挑战和问题进行了总结。这些关键问题包括了:模型的可解释性、数据集中的强文本先验、模型的紧凑性、模型视觉特征的有限感受域以及模型对条件问题的推理能力等。随后,本文根据这些视觉问答中的关键问题和难点展开了深入性的探讨,提出了针对性的理论和方法。本论文的研究内容包括了:·针对视觉问答的可解释性问题,本文提出了一个基于多任务学习的视觉问答模型。该模型采用了一个神经网络枢纽结构(Pivot Structure),将图像描述(Image Captioning)和视觉问答两个任务进行结合。图像描述模块和视觉问答模块共享一个视觉通道,并根据模型所关注的视觉信息来生成一句短句来解释模型预测的依据。此外,模型的多任务结构能够帮助模型利用大量现成的多模态数据来帮助模型对多模态信息的理解,例如用于图像描述的数据集,从而提高模型回答问题的能力。·针对模型的紧凑性问题,本文提出了一个动态胶囊注意力算法(Dynamic Capsule Attention)。该动态注意力算法可以替代传统的多层注意力结构(Stacked Attention Layers),在使用一层注意力层的情况下完成多步视觉推理。该动态注意力算法能够帮助模型在保持高性能的同时显著地降低了模型的参数量。·针对视觉问答数据集中的强文本先验问题,本文提出了一个创新的非对称学习策略(Pairwise Inconformity Learning Scheme,PIL)来重点解决了由强文本先验所导致的模型知识惯性(Knowledge Inertia)的现象。PIL学习策略包含了多模态嵌入学习(Multimodal Embedding Learning)和一个基于动态边际的三元损失函数(Dynamic-margin based Triplet Loss),利用 VQA2.0 数据集中给出的图像对设置(两张相似的图像、相同的问题但不同的答案),强迫模型在训练中更多的通过视觉信息来回答问题,从而提升模型的回答准确率及可靠性。·针对模型的视觉感知域问题,本文提出了一个全新的多模态金字塔网络(Multi-modal Pyramid Network,MPN)。相较过往使用单尺度特征图的视觉问答模型,MPN网络充分利用卷积神经网络的金字塔结构,从多个尺度上感知潜在的问题信息,从而提高模型预测的准确性。此外,MPN还包含了一个至上而下的视觉推理方案(Top-Down Reasoning)来保持不同尺度上所学习到的多模态特征的语义一致性。·针对模型的推理能力问题,本文提出了一个深度三角图网络(Triangular Graph Neural Network)。该三角图网络对每个视觉问答样本构建了一个由问题节点和视觉区域节点的所组成的无向图。在这个图的三角连接关系中,问题节点起到了将文本信息的引入以及衔接视觉区域节点的作用,帮助模型获得高度问题相关的抽象视觉关系,从而提升模型的视觉推理能力。
其他文献
背景及目的:胶质瘤是颅内最常见的恶性肿瘤,致死致残率高,目前整体治疗效果仍有待提高。长链非编码RNA(LncRNA)是一类长度大于200个核苷酸的非编码RNA,在肿瘤中发挥巨大作用,
近年来随着美丽乡村的建设成为社会各界关注的重点,乡村建设在全国各地如火如荼地开展。目前山地型乡村普遍存在景观资源丰富却保护利用不足,乡村景观缺乏乡土特色,乡村的整体景观风貌较差的问题,因此,在美丽乡村的建设背景下,针对如何提升山地型乡村的景观风貌,建设山地型美丽乡村开展研究具有重要的理论意义与实践意义。论文的研究首先对我国乡村建设的社会背景和政策背景、乡村景观风貌营造存在的普遍问题以及山地型乡村景
物质文化研究是人类学的热点领域,符号学也长期关注物的符号研究。如何将物的人类学研究和符号学研究两种理论视野结合起来考察物自身的生命史,成为本文写作的立足点和着眼点
随着我国经济的不断发展,在进行个人住房按揭贷款的过程中可以采用房屋来进行抵押担保。在绝大多数情况下,人们通常将房地产贷款形式看做成为一种风险最小的贷款方式。在最近几年的发展过程中,我国房地产交易市场出现了前所未有的火爆现象,我国各个地区的房价也在不断的飙升,与此同时,我国相继出台了一系列有关于房贷利率的政策,在一些政策的引导下我国商业银行对房地产业的发展也起到了决定性作用。伴随着我国房价的不断发展
学位
复合材料层合结构由于具有高强度、耐疲劳和可设计性等特点在航空航天、海洋、和汽车等诸多工程领域都有着广泛的应用。但是,由于沿厚度方向的非均质和各向异性,复合材料层合
随着我国城市化进程的加速和旅游业的迅猛发展,城市型风景名胜区正面临外部城市侵占以及内部建设混乱等多方面的问题,景城关系逐渐失控,亟待协调。论文以紧邻温州、景城矛盾显著的仙岩风景名胜区为例展开研究,旨在总结其规划策略,在总体规划层面引导仙岩风景名胜区与温州市协调发展。论文主要取得以下成果:(1)明确了城市型风景名胜区及景城协调的概念,分析了城市型风胜景名区的发展历程及其典型特征。梳理总结了仙岩风景名
近年来,人工智能的快速发展刺激着科技的不断进步。人工智能领域内的图像、语音、文字三个重要领域内的研究也随着人工智能技术的进步而蓬勃开展,涉及人工智能和智能问答的研究不胜枚举。语音情感识别作为语音研究领域内不可或缺的一部分,在语音语义识别等技术已经取得一定成就的基础上逐渐成为人们在现阶段研究的焦点和方向。如何在现有技术的基础上获得语音情感识别准确率方面的提升则成为语音人工智能研究的首要目标。本文首先
中华人民共和国成立70年来,中国经济持续快速增长。尤为世人所瞩目的是,中国在保持经济高速发展的同时,还保持了政治和社会的持续稳定。中国奇迹成为中外学者持续关注的重大
在正式制度与正规金融体系尚不完善或未完全发挥作用的转型期中国,“关系”这种非正式制度发挥了积极作用,围绕其展开的企业融资、治理与经济增长的相关研究一直是学术界的热
在中国特色社会主义市场经济建设不断完善的过程中,国有企业一直以来都是我国经济改革的重点。虽然在经历了放权让利、两权分离、政企分开以及建立现代企业制度等阶段以后,在