基于多通道协同注意机制的视觉问答模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:haijiehahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是一种跨模态分析推理任务,其目的是回答基于图片内容提出的自然语言表述的问题。一个完整的视觉问答过程通常被分为三个过程:特征提取、特征选择与融合、预测分类。其中特征选择与融合过程负责跨模态特征交互和对齐,是视觉问答任务的核心。为了实现跨模态特征的更细粒度交互与筛选,本文对视觉问答的特征选择与融合算法展开研究。本文的主要工作如下:(1)现有的视觉问答模型普遍使用注意力机制来选择跨模态输入中的关键信息,如问题的关键词与图像的关键区域,但这种单一的选择策略会使筛选出的特征向量维度骤降(从K×2048到2048)。这个过程中,部分关键信息可能会丢失,而部分无关信息可能会被引入,影响模型的推理性能。本文提出一种新的特征选择策略来选择跨模态数据的关键信息。该策略将特征选择过程分为全局筛选和局部筛选两步,与传统特征选择方法相比,本文的选择策略多一次缓冲,提高了选出特征的准确性。本文进一步提出了一种新的多通道协同注意机制模型(MCCAN),其将整个跨模态特征融合过程划分为多个阶段,通过从全局到局部不同层次的特征选择逐步加强图像与问题之间的相关性。本文在已发布的VQAv2数据集和VQA-CP数据集上的准确率相较基线模型分别提升了3.99%和2.77%。(2)视觉问答任务一般被看作一个分类任务,但现有模型仅负责预测出给定输入所属类别编号,而忽略了对候选答案和最终融合特征进行编码,导致模型并不理解预测答案的具体含义。在(1)中提出的模型框架的基础上,本文改进了问题特征的通道表示,结合现有模型忽略对候选答案语义进行理解的事实,进一步提出基于多通道协同注意机制的改进模型(IMC-CAN),该模型通过比较最终融合特征编码与候选答案编码的余弦相似度,使模型的预测答案更趋近于真实答案含义。相较于MC-CAN,IMC-CAN将VQAv2数据集上的性能从69.44%提升到了70.10%。
其他文献
遥感图像分割是理解遥感图像的基础,在防灾减灾、环境治理以及城市规划等领域有着重要作用。在过去,人们常常使用与图像分割有关的传统方法来处理遥感图像。传统的图像分割方法不管是在分割的精度还是分割的效率都是很低的。近年来,随着深度学习在计算机视觉领域的广泛应用,尤其卷积神经网络的在提取特征的显著优势,使得图像在分割的速度和精度上都得到了很大的提升。同时,基于深度学习的模型可以实现便捷的端到端的训练学习。
随着互联网,尤其是移动互联网的快速发展,人们在互联网上留下了的大量包含情感信息的评论。对海量用户评论进行文本情感分析,可以挖掘出人们对产品、服务的真实情绪、态度和意见。这些信息有利于消费者做出选择以及商家、服务平台对产品服务进行优化,尤其是用户评论中被消极评价的意见目标,简称消极情绪意见目标。抽取用户评论中消极情绪意见目标,可以帮助商家更有针对性的改进自身产品或服务中的问题,帮助消费者了解产品或服
领域适应方法由于能够有效克服传统机器学习中需获取大量标签和模型重新训练的问题,成为近年来的热门研究问题之一。领域适应方法利用源领域中潜在的信息为目标领域训练一个高置信度的分类器。自动编码器由于具有健壮的特征表示能力,成为领域适应任务中的常用模型之一,并取得了很好的效果。尽管基于自动编码器的领域适应方法具有较强的泛化能力,但在实际应用中仍存在一定的不足,如在训练新的特征空间时边缘降噪自动编码器(m
随着遥感技术的发展,遥感数据融合受到广泛关注。其中,高光谱与多光谱图像融合是一个研究热点。高光谱与多光谱图像融合的目的是获得一幅高空间分辨率高光谱图像,解决直接从传感器获取的高光谱图像空间分辨率低的问题。融合的任务是在保证较低光谱畸变的同时增强图像的空间信息。基于此,本文通过字典学习的方法对融合算法进行研究。本文在现有优秀算法的基础上,通过分析目前融合结果普遍存在的问题,提出两种基于字典学习的融合
随着互联网和大数据技术的发展,许多应用领域如新闻检索、淘宝购物和银行交易等产生海量的流式数据。不同于传统数据挖掘任务中采用的静态数据,这些数据流具有海量、快速、标签缺失、概念漂移或概念演化的特点,同时,由于存在多标记加剧类不平衡与类标签噪声问题,使得数据流的分类研究工作面临巨大挑战。因而如何从标签缺失的数据流中高效精准地挖掘潜在的、富有价值的信息成为数据流分类问题研究的重要任务之一。本文旨在充分利
近年来,我国国民经济发展很快,带动了我国电信行业稳定增长,目前正在研发5G关键技术和产品,需要打造系统、芯片、终端、仪表等完整产业链,重点推进骨干网、城域网、固定宽带接入网、移动宽带接入网、国际通信网和应用基础设施建设,要求升级改造国干网光缆线路,推进双向网、光纤化改造。因此,进入通信电缆人孔内布放光缆、光缆管路施工或障碍维修工作情况日益频繁。通信电缆人孔属于传输网络必经场所。类似于通信电缆人孔的
遥感卫星携带的传感器受到自身性能的约束,采集的单一遥感影像数据的无法兼得高空间分辨率和高时间分辨率的问题。遥感图像时空融合技术是当前解决此问题的重要手段之一,该技术通过结合多个卫星传感器的不同优势得到高时间、空间分辨率的影像数据。就融合数据而言,由于时间间隔较大,预测时刻图像相对于先验时刻图像局部区域发生了地物变化,造成基于先验时刻图像对在变化区域构建的高低分辨率先验失效。就稀疏表示方法而言,方法
在互联网发达的信息化时代,海量文本信息的表示、存储、传输和利用已非常普遍,但有价值的信息获取却让人们陷入困境,导致“信息发达,知识贫乏”。如何在我们生存环境周围,从海量数据中挖掘出有潜在实际意义和价值的信息成为目前亟待解决的研究热点问题之一。在日常工作和生活中,我们接触到绝大多数数据信息都是以文本格式存在的,人们一直渴望能够找到一种高效的工具,能够依据文本信息主体的不同特征,对这些海量文本数据进行
无线传感器网络(Wireless Sensor Network,WSN)在交通管理、智能监控、智能建筑、军事侦察、环境监测领域都有着广泛的应用。无线传感器节点的电池能量有限,特别是在特殊监测的环境中,更换电池的难度增加,导致电池的能量消耗殆尽,网络质量变差。因此,如何延长WSN的寿命,保证节点的能量供应是尤为重要的研究话题。此外,随着网络规模的不断增大,节点间传输数据时产生的干扰也越发严重,由于无
在大数据驱动下的数字化社会中,个人的身份认证变得尤为重要,在此背景下,越来越多的身份认证方式应用在各个领域。掌纹识别作为一项新兴的生物特征识别技术,在过去的二十年里,多种传统掌纹识别方法被提出应用于相关场景中。近年来,深度学习的兴起为多项任务实现了新的突破,掌纹识别也逐渐在深度学习领域展开研究。然而,目前大多数深度掌纹方法往往只是简单的使用存在的经典神经网络完成识别任务,并没有充分的学习掌纹本质特