论文部分内容阅读
视觉问答是一项涉及计算机视觉、自然语言处理以及知识表示与推理等多个领域的多模态学习任务。在视觉问答系统中,给定一幅图像和一个与图像内容相关的自然语言问题,要求模型能够给出一个准确的自然语言答案。目前,得益于人工智能相关技术和领域的蓬勃发展以及众多科研工作者的不懈努力,视觉问答系统从早期只能勉强地回答答案为“是”或“不是”的是非类问题,发展到现在已经可以正确地回答需要复杂推理和外部常识知识的问题,其取得的成就已经远远地超出了人们的预期。现有的视觉问答模型中存在仅建模对象级视觉表征而忽视了视觉对象之间的关系问题,以及因建模每个图像区域与每个问题单词之间的相互作用而导致模型的注意力被分散问题。并且,在情感视觉问答网络中将问题引导的注意力与情感引导的注意力区分开来十分困难。为此,本文从视觉关系推理、注意力机制以及情感计算三个方面对视觉问答系统进行了研究与讨论,提出了用于视觉问答任务的多模态协同注意关系网络、多模态显式稀疏注意网络、基于阈值的稀疏协同注意视觉问答网络以及双层情感视觉问答网络。基于主流的视觉问答数据集,本文实现了相应的视觉问答系统并通过对比实验和消融研究验证了所提出的模型的有效性和可解释性。最后,本文结合信息管理、迁移学习、视觉问答以及人机交互等先进技术设计并实现了一个智能医疗诊断原型系统。本文的主要研究内容如下:(1)当前主流的视觉问答模型中存在仅建模对象级视觉表征而忽视了视觉对象之间的关系问题。为了解决这一问题并在视觉问答任务中有效地利用视觉对象的位置信息以及它们之间的相对几何关系,本文提出一种结合协同注意与视觉对象关系推理的多模态协同注意关系网络。多模态协同注意关系网络使用协同注意力机制学习对于正确地回答输入问题更为关键的文本特征和对象级视觉表征,并进一步利用视觉对象关系模块在关系级对视觉表征进行建模。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.83%的整体准确率。基于多模态协同注意关系网络,本文通过堆叠视觉对象关系模块进一步提高了该模型在Number型问题上的精度。受多模态协同注意关系网络的启发,本文还提出两种结合协同注意力机制与视觉对象的相对几何特征的模型RGF-CA和Cos-Sin+CA,分别实现了优异的综合性能和在Other型问题上取得了更高的准确率。该工作验证了协同注意力机制与视觉对象关系建模在视觉问答任务中的协同作用。(2)针对先进的视觉问答方法因建模每个图像区域与每个问题单词之间的相互作用而导致模型的注意力被分散问题,本文提出一种多模态显式稀疏注意网络。多模态显式稀疏注意网络通过显式地选择输入特征中与预测正确答案最相关的局部特征集中模型的注意力。这种基于top-k选择的方法能够减弱不相关信息带来的干扰并最终帮助视觉问答模型获得更好的性能。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.71%的整体准确率。此外,本文还通过注意力可视化结果证明多模态显式稀疏注意网络相比于其他先进的视觉问答模型能够捕获更好的被关注特征。该工作证明结合稀疏注意力机制的模型同样可以在视觉问答任务中获得具有竞争力的结果。(3)大多数现有的视觉问答模型在学习输入图像与输入问题之间的协同注意时选择建模每个图像区域与每个问题单词之间的稠密交互。然而,要正确地回答与图像内容相关的自然语言问题通常只需要理解输入问题中的几个关键单词并捕获输入图像中的部分区域所包含的视觉信息。与输入问题不相关的图像区域以及与预测正确答案不相关的问题单词之间的交互所产生的噪声信息会分散视觉问答模型的注意力并对模型的性能产生负面影响。为了解决这一问题,本文提出一种基于阈值的稀疏协同注意视觉问答网络。基于阈值的稀疏协同注意视觉问答网络通过设置注意力分数阈值筛选出对于预测正确答案最有帮助的图像特征和问题特征并最终提高了其模型的整体性能。该网络在视觉问答基准数据集VQA 2.0的test-dev集合上达到了 70.82%的整体准确率。(4)情感视觉问答网络利用输入图像中包含的情感信息生成带有情感的自然语言答案,该模型在丰富对视觉问答任务的理解和分析的同时保持了与传统视觉问答基线模型相同的精度水平。将图像中包含的情感信息集成至视觉问答系统是一项相当新颖的任务。然而,在该模型中将问题引导的注意力与情感引导的注意力区分开来十分困难。这是因为情感视觉问答网络使用串联的方式连接输入问题单词与输入图像的情感标签。并且,这种类型的串联还会对视觉问答模型的性能产生负面影响。为了解决这一问题,本文提出一种双层情感视觉问答网络。双层情感视觉问答网络将视觉问答中生成带有情感的答案的任务划分为两项相对简单的子任务即生成无情感答案与生成输入图像的情感标签,并使用两个独立的层分别完成这两项子任务。该网络在实验数据集上的整体精度比情感视觉问答网络高出7.6%。此外,本文还在情感视觉问答网络和双层情感视觉问答网络中引入了更先进的词嵌入方法以及更细粒度的图像特征提取器以进一步提高这两种模型的性能。实验结果证明,与情感计算相结合的视觉问答模型与通用视觉问答模型一样可以通过改进这两个模块提高其模型的整体性能。(5)为了缓解我国医疗资源紧张引发的如医疗纠纷频繁发生和医疗保险难以实施等问题,本文提出一种智能医疗诊断原型系统以提供高效的医疗诊断服务并推动医疗信息整合,从而帮助医务人员提升工作质量与工作效率。智能医疗诊断原型系统基于本文提出的视觉对象关系模块、基于阈值的多头稀疏按比例点积注意以及双层情感视觉问答网络中将复杂任务划分为简单子任务的思想,并利用迁移学习等先进技术收集、处理、分析和理解医疗诊断信息。该系统通过结合其内部经验知识回答医学图像中与医疗诊断相关的自然语言问题。此外,智能医疗诊断原型系统能够从其与外界环境中的医疗诊断信息的交互中累积、完善、学习并更新经验知识以实现自主学习。智能医疗诊断原型系统以自动化方式完成医疗诊断任务,从而使得用户无法直观地感受到该系统的可靠性。因此,本文通过注意力可视化方法证明了该系统的有效性和可解释性。最后,本文指出了智能医疗诊断原型系统的缺点和不足并以此作为未来工作的主要内容与方向。