基于多模态特征融合的视觉问答研究

来源 :常州大学 | 被引量 : 0次 | 上传用户:zxcfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,深度学习技术已经在各个领域中得到广泛应用,包括目标检测、机器翻译、语音识别等。随着研究的深入,将文本、图像和语音等多领域信息进行融合和交互的多模态任务已经引起研究者们的广泛兴趣。其中,视觉问答是多模态学习任务的研究热点之一。视觉问答系统的主要目标是根据图像内容和对应的问题以回答出正确的答案,需解决的问题涉及计算机视觉和自然语言处理等领域。现阶段对于视觉问答的图像表示常采用深度卷积神经网络进行提取,但在一些问题类型场景下,VQA(Visual Question Answering)模型会受到图像中其他冗余信息的干扰,从而降低整体视觉问答模型的性能。同时,在进行多模态交互时,随着注意力网络的深度加深,模型的性能也逐渐趋于饱和。此外,深度注意力网络中视觉特征与文本语义交互不充分,也会最终影响到模型对问题的理解和答案的预测。基于上述问题,本文以注意力机制和神经架构搜索两方面为基础,通过多模态特征融合的方式加强模型对复杂问题的推理能力,提高VQA任务的准确性。主要工作内容如下:(1)针对常规卷积神经网络提取的图像特征表示不足的问题,本文提出一种基于复合视觉语言的卷积网络(Composite Vision-linguistic Conv Net,CVl CN)来提取复合视觉语言下的图像特征。首先将图像特征和问题语义通过复合学习的方式融合成图文特征,然后从空间和通道上计算复合图文特征下的注意力分布,选择性地保留与问题语义相关的视觉信息。通过复合图文特征加强模型对图像的理解,整体视觉问答模型的建模过程简单,并在公共数据集VQA-v2上获得较高的准确率。(2)本文在(1)工作的基础上发现问题对视觉的重要影响和视觉对问题理解的缺失,进而针对图像和问题两种类型数据在模型中信息交互不足的问题,提出一种基于双线交互的神经架构搜索算法(Double Interaction Neural Architecture Search,DI-NAS)。首先定义一种多模态双线交互的搜索空间,由模态内的融合操作池和模态间的交互操作池构成,使得多模态特征能够有效地进行模态内特征融合和模态间特征交互。然后根据双线交互的搜索空间构建超网络,并采用one-shot搜索算法估计出每个搜索节点的候选操作。最后,将权重最高的候选操作作为最优的网络结构。通过实验进行网络架构的搜索优化,并通过定量和定性分析,验证了最优搜索架构的有效性且准确率有明显提升。
其他文献
近年来,由于网络的日益发达,使用在网络的评价量呈现指数级别上升,这些评论中承载了用户对产品或某一对象的态度和观点,研究这些评论中蕴含的情感倾向具有重要的现实意义。随着对情感分析的深入研究,涌现出许多基于深度学习的各类模型。其中也出现了许多问题,例如基于传统注意力机制的神经网络模型在捕捉句子长依赖关系上的表现并不突出,而能解决该问题的依赖树模型容易忽略依赖弧上的标签信息。另一边,随着科技的发展,用户
学位
近年来,行人重识别技术由于深度学习的发展取得了巨大的进展。然而,目前的行人重识别研究主要是集中在短时间情况下,即行人的衣着不太可能发生改变。这些方法在很大程度上依赖于行人穿着衣物的颜色外观。然而现实中更常见的情况是长时间下,一个人有很大的机会更换衣服,所以现有的方法在此情况下是不可靠的,行人重识别模型应该考虑这种情况。因此,换衣行人重识别任务应运而生,本文针对换衣行人重识别问题,主要做了如下方面的
学位
区块链作为一种去中心化的分布式账本系统受到世界的普遍关注。联盟链作为区块链中的一类,具有高性能、强可控性的特性,其弱中心化的特点也更符合企业属性。因此高性能联盟链系统关键技术研究也是区块链技术研究的一个重要方向。目前对于联盟链系统的性能提升研究主要致力于共识算法的优化,而分片技术的加入能够进一步提高联盟链的扩展性,但是现有的分片协议大多针对公有链系统设计,甚至部分需要硬件依赖。因此,基于联盟链的共
学位
在人体行为识别任务中,基于骨架关节点的模型由于能清晰、直观地表达特征、运算简便,且鲁棒性高,因此倍受关注。但是在传统骨架建模方法中,依然存在空间图构造受预定义影响,忽略了非相邻节点间信息的有效利用,以及常规卷积神经网络对遮挡适应性较差、容易忽略全局特征等问题。针对此,本文在ST-GCN模型基础上,提出几点改进方法,具体如下:(1)提出一种基于全局图遍历的ST-GCN人体行为识别算法。在STGCN模
学位
随着信息技术和人工智能的发展,人脸识别技术的应用越来越广泛,给我们的工作、生活提供了极大的便利。当涉及复杂环境的人脸识别时,人脸识别往往面临很多问题,如遮挡问题、光照变化等。基于这些复杂环境的人脸识别也成为当下研究的热点。针对人脸自遮挡、面部配件、物理遮挡等复杂遮挡问题,本文研究了基于多角度人脸重构和Gabor字典学习的无约束人脸识别。主要包括以下几个方面的内容:首先,许多基于数据、模型分析的方法
学位
任务型对话系统能够以人类语言与用户交流,在多轮交互中监控用户目标,最终完成用户所提供的任务。对话状态追踪是任务型对话系统中承上启下的关键模块,当前研究忽略了槽位与自然语言之间的关联,导致模型无法处理一些特殊的用户表达。此外,传统模型还采用了槽位门控机制并且将对话历史作为输入,这拖累了系统的响应速度,使用户无法获得良好的人机交互体验。针对传统模型忽略了槽位与自然语言之间的关联并且推理速度过慢的问题,
学位
智能手机迅速发展,功能丰富化应用多样化的同时,能耗也不断增加。但由于物理尺寸及电池技术的限制,导致其续航能力得不到提升。智能手机的应用程序离不开网络支持,研究表明,网络请求是造成智能手机耗能的重要原因之一。因此,大量研究者从网络传输方面降低能耗,将网络请求推迟进行合并转发是其中一种方法,但一定程度会影响用户体验。通过对不同使用场景设置不同的延迟时间可在牺牲少量用户体验的前提下降低更多能耗。本文采用
学位
随着农业现代化进程的推进,基于农业领域的知识服务体系成为农业信息化研究的热点问题。传统的信息获取方式以搜索引擎为主,搜索引擎返回大量网页链接,答案高度分散并且呈现多源异构的特点,无法迅速且准确地为农业相关工作者提供知识服务,用户体验感差。领域知识图谱的发展为特定领域内的知识问答提供了高质量的知识库基础。本文基于构建的农业知识图谱,对农业知识问答系统进行研究。主要研究内容如下:(1)构建农业领域知识
学位
行人重识别是在多个摄像头网络中检测特定的行人是否出现的技术。它在智能视频监控系统中扮演了重要角色,并且在公共安全领域有广泛的应用。由于目前摄像头产生的视频数量繁杂,虽然包含了丰富的行人信息,但是需要在数据标注上花费极大的代价。为了减少数据标注的成本,有效地利用视频数据,同时获得鲁棒的模型,本文主要研究基于单标注样本的视频行人重识别方法。针对单标注样本视频行人重识别中特征提取能力弱,伪标签分配错误率
学位
目的:探讨改良悬雍垂腭咽成形术(H-UPPP)在阻塞性睡眠呼吸暂停综合征(OSAS)患者中的应用有效性。方法:选取2020年1月~2021年12月佛山市中医院收治的88例OSAS患者,根据手术方法的不同分为研究组(应用H-UPPP治疗,44例)与对照组[应用低温等离子射频消融术(RFA)治疗,44例]。比较两组动脉血氧饱和度(SpO2)、呼吸暂停低通气指数(AHI)、治疗有效率、嗜睡情况及生存质量
期刊