基于图结构的视觉推理方法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:sw_8818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉推理是一类重要的视觉-文本多模态内容理解和智能评估任务,其目标是构建具备视觉感知、语言理解及推理能力的问答系统。虽然相关研究已经取得了显著的进展,但仍旧面临着知识融合程度低、推理解释能力弱等问题,限制了智能视觉推理系统的进一步发展。为了解决上述挑战,本文借助图结构(Graph)善于表征关系数据、具备良好可解释性的互补优势,研究如何在视觉推理中有机结合图结构表示。这将有利于突破现有视觉推理模型的瓶颈,推动相关研究向更智能化的方向发展。本文从融合外部知识图赋能传统模型、构造模块推理图提升可解释性、学习语义时空图增强表征能力这三个角度出发,提出了三种基于图结构的视觉推理方法。本文的主要贡献和研究内容如下: ·提出了基于外部知识图的增强式视觉推理方法:大多数视觉推理方法仅依靠 分析给定的图片和问题来得出答案,无法回答需要外部知识的视觉问题。一 些工作尝试引入外部知识图谱,但往往难以应用在多样化的开放问答场景。 本文提出了一个知识图谱增强模型,在知识图谱空间中发掘图片-问题上下文 实体与答案实体之间的关联,从知识驱动的角度增强传统数据驱动的方法。 实验结果表明该模型在多种实验设定下有效提升了基准模型的性能。 ·提出了基于模块推理图的可解释视觉推理方法:传统的视觉推理方法采用整 体(Monolithic)神经网络模型,推理过程往往缺乏可解释性。近期一些工作 采用模块化思想,使用一组预定义的神经模块取代传统的整体模型,但在真 实视觉场景下依然难以实现可解释的模块化推理。本文提出了一种模块化视 觉推理模型,通过设计真实场景适用的神经模块组以及模块推理图(树)上 的动态多任务优化策略,将神经模块的功能解耦,实现了真实视觉场景下的 可解释、组合式的推理过程。 ·提出了基于语义时空图的自监督视觉推理方法:传统上的视觉推理模型大多 以一系列无语义的深度视觉特征作为视频表征,难以建模多物体、多事件场 景下物体间的复杂时空交互关系。本文提出了一种基于语义时空图的自监督 视觉推理方法,通过构建物体级别的视频时空图表征以及自监督的事件识别 任务,形成了物体级和事件级的语义约束。实验结果表明该方法展现出了很 好的性能,相比基线方法取得了显著的准确率提升。
其他文献
计算机技术迅速发展的今天,机器学习在许多领域已经取得了非常优秀的性能表现。虽然新的机器学习算法层出不穷,性能也逐步提升,但是机器学习的成功更多地是依赖大量的高质量标注数据。可是在许多专业的领域,数据或标注样本数据稀少,而数据标注不仅枯燥乏味、消耗时间,还需要大量具有专业领域知识的人力资源,如何在少样本场景下进行深度学习通常不是一项容易的任务。元学习的出现为上述问题的解决寻找新的突破口。元学习希望训
研究目的釉丛蛋白1(Tuftelin1,Tuft1)是一种酸性蛋白,可能参与间充质干细胞及神经细胞的分化,其对乳腺癌及胰腺癌的生长具有促进作用。然而在甲状腺癌中的作用尚未见报。本实验将利用体内外环境探讨Tuft1在甲状腺癌发生发展中的作用机制。研究方法1、分析Tuft1在人甲状腺癌组织标本中的表达水平及与患者预后关系。(1)Western blot及Real-time PCR检测Tuft1在人甲状
随着工业物联网、大数据和人工智能技术的不断发展,传统工业开始向数字化转型和智能化升级,产生了大量数据。基于数据分析完成的智能决策在故障诊断、设备预测性维护等场景中发挥着重要作用。时间序列数据是工业物联网中非常重要的数据类型,时间序列相似性检索是众多分析任务的基础。然而,不同相似性检索场景中的可用信息(如领域知识和语义标注数据)存在较大差别。如何在不同场景下,利用给定的可用信息完成时间序列相似性检索
自20世纪50年代诞生以来,人工智能经历了数次演进。如今,随着基础学科和信息技术的突破,人工智能逐渐成为行业竞争的战场、媒体追逐的风口。政府和投资界也意识到人工智能将引领未来的科技革命和产业变革。随着全球经济结构的转变,我国制造业迫切需要走高质量发展的道路。制造业在我国国民经济中占有重要地位,在如此巨大的经济规模下,“降本增效”必然是制造业实现卓越绩效的必由之路。然而,研究发现,成本粘性在我国企业
本文主要运用了全球价值链的理论框架,探讨全球化语境下电视节目模式产业发展的相关命题。首先,本文从历史的视角梳理了电视节目模式产业发展的过程,并分析了驱动其发展的主要因素,包括国际政治和经济环境的变化、新的传播技术的发展以及跨国集团公司的兴起等。其次,本文系统地分析了节目模式全球价值链在产业和文化维度的结构化特征。在投入-产出结构方面,国际节目模式通过研发-本土发行-本土制作-本土播出-国际发行-海
文本校对是文章出版的重要程序,其可以为个人、企业以及政府部门提供文本审查服务,从而保证了发布信息的语法以及语义层面的准确性、真实性,能够防止错误信息的传播。然而,文本校对是一个细致的工作,人工校对往往存在着漏查、效率低、速度慢等问题,因此如何能够自动化地对文本进行语法层面以及语义层面的校对是一个重要研究问题。 本文针对英文文本自动校对中的两个核心任务,语法改错任务以及事实验证任务,进行了研究并利
[研究目的]本课题旨在参考我国与日本胃癌临床诊疗指南中有关内镜治疗早期胃癌(early gastric cancer,EGC)的适应证,并依据患者临床病理资料,通过系列研究,建立术前和术中EGC淋巴结转移列线图模型,以确定该模型是否能较准确地预测EGC患者的淋巴结转移,从而为临床合理地制定EGC治疗方案提供行之有效的技术方法。[材料与方法]本研究回顾性收集了 2012年1月至2018年8月期间,在
螺旋管由于结构紧凑、传热效率高、安全性好,在工业领域小体积换热器设计中被广泛应用。但公开文献中有关螺旋管内的传热和流动机理与特性尚缺乏系统的分析,特别是针对螺旋管内的周向不均匀特性,目前研究仅限于单相的情形。螺旋管内泡核沸腾起始点、过冷沸腾传热及干涸后传热的特性以及经验关系式鲜有文献涉及。螺旋管并联通道的流动不稳定性也鲜有公开报道。因而在螺旋管换热器特别是蒸汽发生器的设计分析和工程应用中存在不确定
资本市场的逐渐发展和完善带来了股权质押的发展。股权质押凭借其融资成本低、速度快的特点让融资渠道得以拓宽,利用股权质押进行融资的企业和个人越来越多。然而在经历广泛股权质押危机后,业界对股权质押的风险和经济后果相当关注。本文选取了拉夏贝尔间的股权质押案例,揭示了股权质押业务中的风险点及防范措施。首先梳理了目前股权质押市场的现状和交易模式,依据信息不对称理论、信号传递理论、委托代理理论等基础理论,采用了
近年来,随着电信运营商各类业务竞争的全面展开,运营商之间对于用户的争夺愈发激烈。无线局域网作为一项业务实例,凭借自由、快捷的特点得到了越来越多用户的认可,对于运营商开发用户资源至关重要。但在实际场景中,单一的无线局域网覆盖模式并不能保证处于覆盖范围内各点位的用户都能享受到优质的网络。在不同场景下,如何部署出更好的无线局域网对于各家运营商都是一个需要思考的问题。因此,本文开展了无线局域网组网架构优化