基于深度学习的视觉问答系统研究与实现

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:wjlovewz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经网络的发展和大型数据集的增多,以及计算机硬件运算能力的提升,使得基于深度学习的技术在单模态(图像、文字、语音)已经取得的巨大的发展和应用。但是,多模态理解和交互等人类高级认知和推理功能还是很弱。针对这个问题,本文研究多模态交互领域一个极其重要的研究课题——视觉问答(VAQ)。视觉问答涉及图像和文本两个模态的信息,由于卷积神经网络(CNN)和循环神经网络(RNN)分别在图像和文本上的突出表现,许多基于卷积网络和循环网络组合的模型在视觉问答任务中体现了很好地效果。随着注意力机制的出现,产生了许多基于注意力机制的模型,但是现有模型在整体准确率上仍然不是特别理想,尤其是在回答复杂的需要推理的问题以及计数问题方面。针对目前模型整体准确率不高的问题,本文提出一种基于分层联合注意力机制的视觉问答模型。随后针对现有模型回答复杂问题准确率低的问题,基于视觉推理思想提出基于推理网络的视觉问答模型。实验结果表明具有推理能力的模型回答复杂问题的准确率明显高于现有的其他方法。本文重点研究了基于深度学习的视觉问答模型,利用深度学习方法处理视觉问答任务,其主要研究内容包括:1)深入研究注意力机制,构建一个能够对图像和问题进行双向关注的分层联合注意力模型,使用分层注意力对问题特征进行多次提取,随后利用联合注意力构建图像-问题的特征映射,增强问题与图像的关联,实验证明分层联合注意力模型可以提高图像—问题之间的关联,提高结果准确性。2)针对模型在复杂问题上准确率不高的问题,基于视觉推理搭建推理网络模块使得模型可以提取复杂问题特征以提高模型的推理能力。3)使用Res Net-152提取深层次的图像特征,在问题注意力和视觉注意力的作用下构建视觉文本联合内存记忆向量,帮助模型推理预测答案,经过试验,在原有数据集的基础上对于复杂问题结果的预测取得了很好地效果。
其他文献
自主移动机器人需要根据不同的任务要求做出不同的移动轨迹,在没有移动物体的静态环境中,机器人可准确地估计自身位姿与建图,但在复杂环境中,特别是室内复杂环境中工作的移动机器人,周围会出现大量的移动物体,如行人,行人会影响机器人的建图与自身位姿估计的精度,本文针对这一问题开展移动机器人在室内环境下的环境地图构建与位姿估计的研究和探讨。主要内容如下:针对视觉SLAM算法进行了研究,通过分析视觉SLAM的技
心音信号含有丰富的生理和病理信息,实时反映着心脏的健康状况,是医生诊断心血管疾病的重要凭据。目前针对心血管疾病的诊断仍以心脏听诊为主,极易因为主观因素造成误诊,结合目前深度学习算法的优良特性,如果能够研究出高效的心音分类算法对心音信号进行分类识别,这对心血管疾病的临床研究具有重要的参考价值。针对以上问题,基于心音信号的特点,本文提出两种不同混合神经网络的心音分类算法,较好地解决心音信号的分类识别问
制造业,一直是我国的支柱产业之一。然而,随着经济的发展,工厂的制造成本水涨船高,人力不足,人力成本增加,质量要求高,产能缺口大等问题不断地给工厂带来新的挑战。近年来,随着技术的发展,机器人、自动控制、大数据等新技术越来越多的使用到制造业中,自动化生产线的出现,对缓解上述问题,起到了一定的作用。用机器人取代人力,解决劳动力不足和人力成本上涨的问题,并提升产能和提高产品品质,是我国未来制造业发展的方向
纺织服装行业是社会发展的支柱产业。随着人们生活水平的提高,纺织行业的消费市场已经由排浪式消费阶段向个性化消费阶段转变,传统的手工生产已经不能够适应时代的需求,服装私人定制将会成为未来纺织服装行业的主要发展方向,而服装私人定制化的发展,离不开工业机器人技术的支撑。机器人末端执行器作为直接与物体接触的部件,是工业机器人在纺织行业应用的关键。因此,针对服装行业的机器人末端执行器的研究,对我国服装行业的发
近年来,神经网络已经广泛应用于图像处理,故障诊断,复杂系统控制等各个领域。众所周知,神经网络系统的许多应用很大程度上都依赖于其动力学行为,尤其对于平衡点的存在性和稳定性。而且,在实际的应用中由于放大器的转换速度和信息处理速度有限,导致时滞在神经网络系统中往往是难以避免的。时滞的存在,不仅会使系统的性能降低,而且会导致系统不稳定甚至紊乱。在许多实际问题中,还存在一种不同于传统时间延迟的典型时间延迟,
最近,耦合神经网络的同步等动力学行为受到了学界广泛关注。在研究耦合神经网络同步现象过程中系统解的收敛速度是一个重要但很难被准确估计的指标。因此,能够准确提供系统解收敛速度的衰减同步逐渐成为研究热点,同时,值得注意的是在现有的可以查到的相关文献中,耦合反应扩散神经网络的衰减同步还没有被考虑过。因此本文研究了多权重的状态耦合以及空间扩散耦合的反应扩散神经网络的衰减同步。接着,本文以现有的衰减同步和H∞
多层多道焊接方式常用于航空航天和船舶制造等工业领域里中厚板工件的焊接,是一种非常重要的连接工艺方法。而基于激光视觉传感器的机器人智能化焊缝跟踪方式以其价格低廉、抗干扰能力强和精度高等巨大优势成为应用最广的方法。然而,在进行实际焊缝跟踪时,利用视觉传感器获取的焊接图像不可避免地会受到强反射、飞溅和电弧噪声的污染导致无法保证焊接的稳定性和精确性。因此,对基于激光视觉的多层多道焊缝跟踪进行研究具有重要意
在科学研究和工程技术领域,优化问题无处不在,但这类问题往往带有复杂的约束条件使搜索过程复杂化,加大了解决问题的难度。在过去的几十年里,进化算法被广泛应用于求解优化问题。然而,单纯只用进化算法来解决约束优化问题是不准确的,因为它们不能直接减少约束问题的约束偏移。因此,对于约束优化问题,如何能够设计出有效处理约束且能找到最优解的算法即为本文的研究重点。本文主要从进化计算中约束处理技术的角度出发,结合有
近几十年来,多智能体系统的分布式协同控制引起了越来越多研究者的关注,其研究方向涉及传感器网络、编队控制、一致性问题、航天器姿态跟踪控制、分布式优化计算和控制工程等各个领域。一致性问题是多智能体分布式协同控制的基本问题,其目标是指一组智能体基于局部交互规则在一定的物理量上达成一致。在现有的研究基础上,本文研究了二阶多智能体系统的一致性问题,主要从以下两个方面展开研究:在实际的多智能体系统中,由于智能
随着科技的迅猛发展,许多工程应用都需要大量的决策变量来解决问题,这种大规模问题的优化将对现有的优化算法提出挑战。由于决策变量的数量较大,所以问题的搜索空间也是巨大的,甚至是无限的,这就使得问题难以入手求解。此外,在这巨大的探索空间中,必然存在着许多伪全局最优值,这些值将影响算法并使其陷入局部最优,从而失去了搜索全局最优的机会。针对大规模问题的优化,通常使用两种优化技术:一是基于分解技术的协同优化框