基于视觉语义双通道的视觉问答算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:cool_face
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一项高级视觉任务,视觉问答技术旨在准确回答给定图像的自然语言问题,在医疗援助、智能客服、人机交互、视觉导航等研究方向有着广泛的应用前景。视觉问答是一项艰巨的多模态任务,因为这项技术不仅需要了解图像的视觉对象及对象间的关系,还需要深度的理解图像中隐含的语义信息。最近,注意力神经网络及其变种通过结合问题特征与图像特征的方法预测答案,并获得令人瞩目的效果。然而,这一类方法没有对现实场景中视觉对象之间的关系进行建模。并且现有的视觉问答系统忽略了图像中隐含的高层次语义信息,同时缺乏对语义信息的多粒度理解能力。因此,视觉问答任务的关键挑战是在推理过程中得到有效的语义嵌入和细粒度的视觉理解。针对上述问题,本文提出一系列的改进措施。针对如何建模并推理图像中视觉对象之间的关系,本文提出视觉关系推理模块。针对如何获取有效语义嵌入的问题,本文提出视觉语义双通道方法,并设计多角度语义模块以提升模型的多粒度语义理解能力。此外,本文还引入门控机制,以自适应的控制视觉通道与语义通道对答案预测的贡献。本文的主要创新工作如下:(1)本文提出视觉语义双通道方法,该方法主要由视觉通道与语义通道组成,可以同时捕捉图像的视觉信息与语义信息。同时在后期融合阶段引入门控机制以自适应的选择视觉线索与语义线索来回答不同的问题,该机制也使模型在训练过程中能够更快的收敛。(2)本文提出视觉关系推理模块以加强图像中显著区域的相关性,建模并推理视觉对象之间的关系。视觉关系推理模块主要由特征融合、二元关系推理与多元关系推理三部分组成,其中二元关系推理与多元关系推理能够获取不同的对象关系类型。(3)本文提出一种多角度语义模块获取语义模态特征,其中多角度语义模块包含完全融合、平均池化融合、注意力融合及最大注意力融合四种融合策略。该模块能够在获取有效语义嵌入的同时提升模型的多粒度语义理解能力。(4)本文在VQA 1.0数据集、VQA 2.0数据集与Text VQA数据集上评估模型效果。实验结果表明,本文提出的方法相比于其他现有方法具有更好的表现。定性分析表明,本文的视觉语义双通道方法能够揭示模型选择不同模态信息的过程。
其他文献
光催化水分解技术提供了一种一石二鸟的制氢策略,不仅可以减少二氧化碳的排放,还可以解决日益加剧的能源危机。自1972年Fujiashima等人的开创性工作以来,半导体受到了光催化领域的广泛关注。在过去的几十年里,国内外科研工作者致力于开发高效、低成本的半导体光催化剂。其中,部分半导体光催化剂显示出优异的产氢性能。然而,传统的半导体光催化剂仍然存在一些不足,例如,光吸收范围窄、比表面积小、光生载流子快
学位
本文以大冶湖流域为研究对象,以现场调查、资料收集、数据分析、模型构建、图表绘制为主要手段,开展大冶湖流域生态系统服务价值分析。在此基础上,选取生态系统服务价值法和污染治理成本法分别核算两种生态补偿标准,将其加权合并作为最终生态补偿标准,以期为大冶湖流域构建生态补偿机制,实现区域协同治理打下良好基础。论文研究对推动大冶湖流域生态环境质量提升,落实国家水污染防治行动计划和长江大保护战略具有重要现实意义
学位
量子度量学是量子技术最有前景的应用之一。它结合了量子力学和统计学的理论,通过量子技术来提高对未知参数估计的精度,在引力波探测、生物传感、原子钟、量子成像等领域有广泛应用。在实验中,通过选取不同的量子态、不同的探测方式并采用合适的估计量,能够实现超越经典极限的高精度参数估计。本文针对单参数估计问题,进行了如下两个方面的研究。1、在量子参数估计中,寻找能够达到克拉美-罗界限(CRB)的最优估计量是非常
学位
随着科学技术和考古学科的日益发展,考古研究更多地采用科技手段辅助测量与分析遗存的古物,挖掘更多信息。本次翻译实践选择Archaeological Science一书,该书介绍了科技考古领域中的新方法,包括同位素分析、绝对年代测定法等,结合具体案例展示如何根据生物科技推测遗留物年代,重现早期人类活动。笔者翻译了书籍的前面两章,即介绍部分和生物分子考古部分,整理归纳了科技考古领域文本翻译的特点和难点,
学位
父子亲情主题绘本是以父子间情感交流为主题,以图为主、以文为辅的儿童图画书,同时也是最受大众喜爱的亲子互动图书形式之一,在幼儿早期亲情教育上发挥着巨大的作用。幼儿通过父子亲情主题绘本的阅读,可以帮助其尽早建立父子亲情的概念,区分家庭中父亲与母亲的角色,帮助儿童更好的体验父子亲情的温暖,逐步学会理解父亲,感恩亲情,促进父子之间和谐交流,建立良好的父子关系。本此毕业创作以父子亲情题材绘本《追风筝的孩子》
学位
柔性传感器以其具有较好的柔性、可拉伸性、低检测限和稳定性等优点被广泛应用于人体生理指标检测、健康监控、临床诊断、虚拟电子、柔性触摸屏、柔性电子皮肤,甚至工业机器人等方面。但在实际应用过程中,人们发现柔性传感器存在灵敏度低、检测范围窄和响应性单一的问题,严重限制了其应用范围。针对柔性传感器存在的上述问题,本文采用溶剂热法制备了高长径比银纳米线;将所制高长径比银纳米线与具有较好弹性、可拉伸性聚氨酯复合
学位
鄱阳湖水域面积广大,流域内含有丰富的湿地资源、动植物资源以及林业资源。该湖泊依靠强大的淡水储蓄能力,可以有效的稳定区域水资源平衡,在保证农业和养殖业用水需求的同时,也担负着保证粮食安全的重要作用。工农业用水的持续增长以及工业污水和废水的排入,使得鄱阳湖的水体质量日渐低下,直接影响到鄱阳湖的生态功能。本文以鄱阳湖为研究区,选取悬浮物浓度作为水质参数反演的指标,利用多时序Landsat-8 OLI、S
学位
碱金属掺杂芳香烃类有机物一直是物理学和材料学领域的重要研究课题。近年来,国内外多个课题组发现可以通过掺杂使得芳香烃分子晶体的结构和磁学特性产生极大的变化,从而获得具有重要学术价值的磁性材料。在本论文中,我们主要针对一些二萘类物质进行碱金属的掺杂研究工作,尝试合成出稳定的分子晶体并且通过X-射线衍射(XRD)、Raman光谱散射以及综合物性测试(PPMS Dyna Cool)等多种方式系统地研究了合
学位
在线服装定制是一种基于互联网信息技术,向消费者提供服装个性化定制服务的商业模式。目前,国内的在线定制多以专业人士、品牌方协助消费者,或消费者独立完成定制的方式展开,在群体互动性、多样性和体验感上稍显不足。近年来,国外兴起了通过引入社区用户、好友协助完成服装在线定制的模式,极大提升了定制满意度。在理论研究方面,采用上述社区支持协助完成定制的理论研究并不多见,面向中国消费者开展的实证研究更是匮乏。基于
学位
碳气凝胶是由碳纳米材料形成的气凝胶,由于具有3D多孔结构、孔隙率高、导电性好、低密度、低导热性、隔音性、化学稳定性等优点,所以常被应用于传感器、吸附、电磁屏蔽、超级传感器、电池催化剂等领域。传统的聚合物碳气凝胶在制备的过程中会使用具有毒性的前驱体,并且制备过程中涉及超临界干燥,存在着工艺复杂、制备周期长等缺陷,严重限制了其发展。近些年来,一些研究人员使用石墨烯、氧化石墨烯、多壁碳纳米管等制备碳气凝
学位