基于对象关系建模与注意力机制的视觉问答研究

来源 :上海海事大学 | 被引量 : 0次 | 上传用户:nan13519927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是一项涉及计算机视觉、自然语言处理以及知识表示与推理等多个领域的多模态学习任务。在视觉问答系统中,给定一幅图像和一个与图像内容相关的自然语言问题,要求模型能够给出一个准确的自然语言答案。目前,得益于人工智能相关技术和领域的蓬勃发展以及众多科研工作者的不懈努力,视觉问答系统从早期只能勉强地回答答案为“是”或“不是”的是非类问题,发展到现在已经可以正确地回答需要复杂推理和外部常识知识的问题,其取得的成就已经远远地超出了人们的预期。现有的视觉问答模型中存在仅建模对象级视觉表征而忽视了视觉对象之间的关系问题,以及因建模每个图像区域与每个问题单词之间的相互作用而导致模型的注意力被分散问题。并且,在情感视觉问答网络中将问题引导的注意力与情感引导的注意力区分开来十分困难。为此,本文从视觉关系推理、注意力机制以及情感计算三个方面对视觉问答系统进行了研究与讨论,提出了用于视觉问答任务的多模态协同注意关系网络、多模态显式稀疏注意网络、基于阈值的稀疏协同注意视觉问答网络以及双层情感视觉问答网络。基于主流的视觉问答数据集,本文实现了相应的视觉问答系统并通过对比实验和消融研究验证了所提出的模型的有效性和可解释性。最后,本文结合信息管理、迁移学习、视觉问答以及人机交互等先进技术设计并实现了一个智能医疗诊断原型系统。本文的主要研究内容如下:(1)当前主流的视觉问答模型中存在仅建模对象级视觉表征而忽视了视觉对象之间的关系问题。为了解决这一问题并在视觉问答任务中有效地利用视觉对象的位置信息以及它们之间的相对几何关系,本文提出一种结合协同注意与视觉对象关系推理的多模态协同注意关系网络。多模态协同注意关系网络使用协同注意力机制学习对于正确地回答输入问题更为关键的文本特征和对象级视觉表征,并进一步利用视觉对象关系模块在关系级对视觉表征进行建模。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.83%的整体准确率。基于多模态协同注意关系网络,本文通过堆叠视觉对象关系模块进一步提高了该模型在Number型问题上的精度。受多模态协同注意关系网络的启发,本文还提出两种结合协同注意力机制与视觉对象的相对几何特征的模型RGF-CA和Cos-Sin+CA,分别实现了优异的综合性能和在Other型问题上取得了更高的准确率。该工作验证了协同注意力机制与视觉对象关系建模在视觉问答任务中的协同作用。(2)针对先进的视觉问答方法因建模每个图像区域与每个问题单词之间的相互作用而导致模型的注意力被分散问题,本文提出一种多模态显式稀疏注意网络。多模态显式稀疏注意网络通过显式地选择输入特征中与预测正确答案最相关的局部特征集中模型的注意力。这种基于top-k选择的方法能够减弱不相关信息带来的干扰并最终帮助视觉问答模型获得更好的性能。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.71%的整体准确率。此外,本文还通过注意力可视化结果证明多模态显式稀疏注意网络相比于其他先进的视觉问答模型能够捕获更好的被关注特征。该工作证明结合稀疏注意力机制的模型同样可以在视觉问答任务中获得具有竞争力的结果。(3)大多数现有的视觉问答模型在学习输入图像与输入问题之间的协同注意时选择建模每个图像区域与每个问题单词之间的稠密交互。然而,要正确地回答与图像内容相关的自然语言问题通常只需要理解输入问题中的几个关键单词并捕获输入图像中的部分区域所包含的视觉信息。与输入问题不相关的图像区域以及与预测正确答案不相关的问题单词之间的交互所产生的噪声信息会分散视觉问答模型的注意力并对模型的性能产生负面影响。为了解决这一问题,本文提出一种基于阈值的稀疏协同注意视觉问答网络。基于阈值的稀疏协同注意视觉问答网络通过设置注意力分数阈值筛选出对于预测正确答案最有帮助的图像特征和问题特征并最终提高了其模型的整体性能。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.82%的整体准确率。(4)情感视觉问答网络利用输入图像中包含的情感信息生成带有情感的自然语言答案,该模型在丰富对视觉问答任务的理解和分析的同时保持了与传统视觉问答基线模型相同的精度水平。将图像中包含的情感信息集成至视觉问答系统是一项相当新颖的任务。然而,在该模型中将问题引导的注意力与情感引导的注意力区分开来十分困难。这是因为情感视觉问答网络使用串联的方式连接输入问题单词与输入图像的情感标签。并且,这种类型的串联还会对视觉问答模型的性能产生负面影响。为了解决这一问题,本文提出一种双层情感视觉问答网络。双层情感视觉问答网络将视觉问答中生成带有情感的答案的任务划分为两项相对简单的子任务即生成无情感答案与生成输入图像的情感标签,并使用两个独立的层分别完成这两项子任务。该网络在实验数据集上的整体精度比情感视觉问答网络高出7.6%。此外,本文还在情感视觉问答网络和双层情感视觉问答网络中引入了更先进的词嵌入方法以及更细粒度的图像特征提取器以进一步提高这两种模型的性能。实验结果证明,与情感计算相结合的视觉问答模型与通用视觉问答模型一样可以通过改进这两个模块提高其模型的整体性能。(5)为了缓解我国医疗资源紧张引发的如医疗纠纷频繁发生和医疗保险难以实施等问题,本文提出一种智能医疗诊断原型系统以提供高效的医疗诊断服务并推动医疗信息整合,从而帮助医务人员提升工作质量与工作效率。智能医疗诊断原型系统基于本文提出的视觉对象关系模块、基于阈值的多头稀疏按比例点积注意以及双层情感视觉问答网络中将复杂任务划分为简单子任务的思想,并利用迁移学习等先进技术收集、处理、分析和理解医疗诊断信息。该系统通过结合其内部经验知识回答医学图像中与医疗诊断相关的自然语言问题。此外,智能医疗诊断原型系统能够从其与外界环境中的医疗诊断信息的交互中累积、完善、学习并更新经验知识以实现自主学习。智能医疗诊断原型系统以自动化方式完成医疗诊断任务,从而使得用户无法直观地感受到该系统的可靠性。因此,本文通过注意力可视化方法证明了该系统的有效性和可解释性。最后,本文指出了智能医疗诊断原型系统的缺点和不足并以此作为未来工作的主要内容与方向。
其他文献
典型地海背景红外辐射传输特性的深入研究,对我国的军用、民用、遥感探测等领域均有着巨大的实用性和理论意义。军事方面,针对各种典型地表和海洋的红外辐射特性的探索,有助于提高探测器或武器在不同环境下适应度和目标甄别速度。从而快速和精准地进行对象识别与跟踪打击。在遥感领域,通过对比不同地表的红外辐射特性,可以提高检测效率、精准度,科学高效地预警灾害发生,保护人民财产安全并减少经济损失。在民用方面,通过实施
学位
经典数字图像处理技术已经在日常生活中发挥了重要作用,例如商品识别、自助付款、车辆识别、刷脸解锁、刷脸支付和自动驾驶。然而图像数量的增长以及分辨率的提高给经典数字图像处理技术的存储和计算带来了严峻挑战。量子图像处理技术结合了量子计算与经典数字图像处理技术,利用量子叠加和量子纠缠等性质改善经典数字图像处理技术的计算效率和存储能力。按照图像初级处理到图像高级处理的顺序,本文依次研究了量子图像空间域滤波算
学位
高架道路作为城市交通走廊具有十分重要的骨干作用,高架道路的交通异常和交通事故往往会诱增道路服务水平的恶化。对于高架道路异常以及事故风险等问题,以往的研究一般都是基于静态交通事故数据的统计分析,然而其在交通异常和交通事故实时检测的实时性相对较差,而且在道路交通事故风险评估上往往还需要更多的数据支撑。本文首先通过研究高架道路的交通异常、交通事故和交通状态的特征,然后提出了一系列深度学习的解决方法来实现
学位
相较于全监督语义分割,弱监督语义分割能仅利用图像级别的类别标注来预测图像中像素的类别,节省了大量的人力和时间的开销。目前的弱监督语义分割算法主要是一个三个步骤的过程,首先利用图像级标签训练一个分类网络、之后通过解析该分类网络的内部参数来生成伪标签、最后用利用伪标签训练一个端到端的语义分割网络。然而目前的算法还与全监督的语义分割算法之间有着较大的差异,导致这种差异的主要原因来自于三个方面:伪标签缺失
学位
代码克隆(Code Cloning)指的是字面或功能上相同的代码片段。由于很多客观的原因,诸如开发任务紧,开发人员水平有限等原因,软件项目开发人员经常通过复制粘贴代码片段来完成任务,在软件项目中产生大量的代码克隆。然而,代码克隆往往导致软件系统维护问题,诸如一处代码功能改变,但克隆的代码没有相应被修改,导致原来一致的代码功能不能一致。因此,如何自动、准确定位功能相似的软件代码成为软件分析任务中的一
学位
在高光谱图像(Hyperspectral Image,HSI)的每个像素点上有数百个光谱波段,并由此形成了一个三维的图像立方体,其中每个光谱波段可以被视作一个二维的图像,因而组成的图像立方体包含有大量的信息。通过分析这些信息,每个像素点可以被预测为某一个类别,并且精准地预测出这些像素点的不同类别是可行的。随着分类技术的高速发展,高光谱分类成为了军事、农业和航空的基础。近些年来,某些高光谱图像分类算
学位
为了减少全球船舶污染排放,国际海事组织(IMO)划分了特定的区域作为排放控制区(ECA),来减少船舶污染物的排放。为了符合ECA法规,船舶经营者使用了不同的减排技术。目前减少船舶排放的主要方法有船舶使用低硫油(燃料切换)、船舶安装洗涤器和船舶使用液化天然气,这些减排方法将会对船舶航线和速度产生影响。船东为了尽可能地降低船舶的航行成本,船东可能在ECA外高速航行并且使用重质燃油,在ECA内低速航行且
学位
新一代信息技术与传统制造业的深度融合,加之市场竞争的加剧和客户需求的日益多样,低附加值、低效率和高消耗的传统制造流程随之发生改变。相较于传统制造,智能制造更加注重产品生命周期内各阶段的高效集成,能够依托先进的信息技术,从而实现数据与技术的深度融合。然而,复杂产品的智能化、数字化转型作为一个动态复杂的过程,既涉及产品生命周期的多阶段、多层级和多要素,又跨越多个制造边界。因此,亟待开展卓有成效的复杂产
学位
波浪补偿装置是在颠簸的海上施工环境下为海上人员设备提供一个相对平稳的施工作业环境的机械装置,按驱动方式可以分为主动式、被动式和半主动式三种类型。与被动式波浪补偿装置和半主动式波浪补偿装置相比,主动式波浪补偿装置具有控制精度高,多自由度补偿耦合效果好等优点。主动式波浪补偿装置工作过程中对时滞的影响十分敏感,是一种典型的时滞控制系统。但与常规的时滞控制系统相比,主动式波浪补偿系统的控制存在两个核心问题
学位
金属氧化物半导体气体传感器具有材料种类多、结构简单、集成方便、成本低、灵敏度高和稳定性好等优点,一直都是气体传感器领域的研究热点。其中,二氧化锡(SnO2)凭借其优异的电学性能、多样化的合成方式、可控的氧空位和多种晶体结构而备受关注。然而,SnO2气体传感器目前还存在工作温度高、对湿度敏感、选择性差等缺陷,其制备工艺也存在流程复杂、精确调控困难等问题。本论文以SnO2为主要研究对象,采用结构调控、
学位