基于图像场景图的视觉问答方法的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:aa1bb1aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,人工智能越来越多的出现在人们的生活中。而视觉问答是能够应用在人类生活中典型的人工智能技术。视觉问答指的是对智能系统输入一张图片和针对该图片提出的问题,系统能够根据图片给出问题的答案。近年来,场景图生成任务的出现和视觉推理技术的进步推动着视觉问答朝着推理方向发展。基于推理的视觉问答模型不但能得出问题的回答,而且能够给出答案的推理过程,使得模型的答案有据可依。而目前应用在VQA中的场景图对于物体间关系的判断还不够准确,模型的推理过程也有待改善。因此,如何构造适合于视觉问答模型的场景图以及如何针对场景图进行推理成了研究重点。基于此,本文提出了如下两个模型:针对视觉问答场景图构造中存在物体间关系表示简单,语义内容不充分的问题,提出了基于上下文信息融合场景图的VQA模型(XNM with Context Scene Graph,XNMS)。物体间关系的判断需要参考周围节点的信息,向图像中的物体特征融入上下文信息,能够丰富场景图的语义表示,进而能够更加全面和准确地识别出物体之间的关系。场景图正确的关系表示能够提高视觉问答模型的推理能力。考虑到以上问题,该模型首先获取到物体自下而上的视觉特征,然后通过双向的LSTM网络来对物体融合上下文节点的信息。在VQA v2.0数据集上进行了实验,通过与基础模型XNM的准确率作对比,证明了该模型的有效性。本文采取了将问题解析成函数模块组合的方式来处理视觉问答中的问题模态,这样能够达到推理的目的。在选择模块之前,需要先对问题特征进行提取。本文提出了基于自注意力问题特征提取的VQA模型(XNM with Self-Attention,XNMA)。考虑到模型对于模块函数的选取受关键字影响的特点,该算法在提取问题特征时加入自注意力模块,来增强句子中对选取函数模块重要的词的表示,从而提高问题处理的性能,提高模型的可解释性。在VQA v2.0数据集上进行了实验,通过与基础模型XNM的准确率作对比,证明了该模型的有效性。除此之外,本文还提出了XNMA+(XNM with Self-Attention+,XNMA+)模型,即加入了上下文信息融合模块和自注意力的问题特征提取模块的模型,通过消融实验,证明了两个模块对于基础模型准确率提升的有效性。
其他文献
随着能源短缺和环境污染问题的愈发严重,传统能源汽车的大量使用加剧了空气污染和石油资源枯竭等问题的恶化。发展新型绿色能源及其相关产品的研发技术以逐渐消除人们对传统能源汽车的依赖是解决污染、能耗问题的首要途径。电动汽车作为一种新能源产品,以其环保、绿色等优势迅速获得消费者的青睐。电动汽车销量持续上升,然而电池容量限制、电池技术发展缓慢和出行车辆不能及时进行能源补充等问题阻碍了新能源汽车产业的进一步发展
轨道电路是铁路信号室外三大设备之一,对于铁路系统的正常运转和高效运输意义重大。但因为轨道电路长期连续工作,且工作环境异常复杂和恶劣,所以在现场轨道电路的故障经常发生,轻则影响运营效率,重则危及行车安全。因此,设计一种高效智能的方法,辅助现场工作人员快速准确地判断出故障类型和及时采取措施,使损失降到最小,是非常有意义的。本文主要研究内容如下:(1)选取25Hz相敏轨道电路作为研究对象,详细介绍了其设
铁路专用移动通信系统当前处于向下一代通信制式演进与发展的重要时期,专网技术发展与部署将采用信息通信技术(Information and Communication Technology,ICT)的全新架构进一步为业务应用赋能,加速铁路行业应用业务的创新发展。由铁路数字移动通信系统(Global System for Mobile Communications-Railway,GSM-R)向铁路5G
高峰客流拥挤是当前大城市轨道交通面临的普遍问题,不仅严重影响客运服务水平,而且易引发运营安全问题。拥挤根源在于供需矛盾,当运力供给难以有效提升时,从客流需求侧加强管理成为缓解拥挤的唯一途径。目前,限流是国内各大地铁城市普遍采用的高峰拥挤应对措施,前期国内学者针对限流组织进行了较为丰富的研究工作,然而,既有研究较少考虑客流的常态化波动特性,导致限流方案在实用化方面存在不足。为此,本文从高峰客流波动特
目前,连锁便利店已成为零售行业中发展最快的业态,配送中心是连锁便利店商品配送过程中的重要节点,对其选址、配送路线的优化能够降低配送成本。配送中心选址与车辆路径的优化之间相互依存,两者联合优化能够从全局角度有效地改善配送方案。此外,连锁便利店由于所处城市的不同决定了各需求点的配送需求也有不同。处于一般地级市的便利店受到高峰期的影响较少,对配送时间的要求较低,而一、二线城市的便利店由于人口密集,会受到
随着云计算和5G等新型网络技术的迅速发展,数据中心中的网络流量呈现爆炸式增长的趋势,如何保证数据中心的健壮运行和用户优质的服务体验质量成为当前数据中心中研究的一个热点。在数据中心中,多对一的流量模式极易导致数据中心产生典型的TCP Incast问题(多个发送方同时向一个接收方发送数据,造成瓶颈链路的拥塞),这会直接降低用户的产品使用好感度;而不当的路由容易导致数据中心产生流量负载分配不均的问题,进
制造业是国民经济的主体。近年来随着我国经济的迅速发展,制造业面临着国内外双重作用下的巨大压力,迫切需要进行产业的升级转型。尤其对于化工制造业来说,加快推进数字化转型更为重要。因为园区内通常设置了大量不同种类的生产仪器设备和输送管道,且生产加工过程中通常会产生具有易燃易爆、强腐蚀性的有毒有害危化品,一旦发生设备损坏或者危化品泄漏等情况,如果巡检不到位,很可能会引发重大生产事故。但是传统的巡检模式极易
随着人口老龄化的加剧,帕金森病的发病率逐年攀升,目前对于该病的发病机制及治愈方式尚不明确。中医药学对帕金森病的认识载数千年,累积了丰富的临床经验和实用方剂。本文旨在梳理了帕金森病关于“风、血、毒”的中医理论,探讨了“风、血、毒”与现今发现的帕金森病可能的发病机制存在一定的相关性,总结了原发性帕金森病的核心病机为“血伤风动,酿毒入络”,其中早发型帕金森病与老年型帕金森病的病机存在异同,论治时需把握“
近年来,随着无人机市场规模的快速增长,以及无人机应用技术的不断革新,无人机在多个领域发展起来。在物流方面,得益于各大物流厂商的不断探索与实践,无人机配送技术不断成熟,应用场景不断完善,逐渐从偏远农村向城市地区拓展。然而由于城市地区人口稠密,环境空间复杂,安全性得不到保障,无人机在城市的运行还受到诸多限制。面对这样的限制,为了促进无人机配送产业的发展,推动无人机配送在部分城市的应用落地,需要从整体上
机器学习已经应用于光纤分布式振动传感器的模式识别,有效提升了光纤分布式振动传感器在周界安防、油气管道监测、结构健康监测、轨道交通物联网、交通流量监测、地震波监测等应用中的振动事件识别能力。但在工程应用中,现有振动信号特征提取方法的效率与模式识别算法的泛化能力仍存在限制问题,目前模式识别算法的训练仍需要大量实验样本与标记;另一方面,目前光纤分布式振动传感器实现振动频率测量存在方法复杂与器件成本高的限