基于关系建模的视觉问答研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:hyhf_lwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,多媒体数据呈爆炸式增长。在这些多媒体数据中,单一媒体的数据往往不是独立存在的,而是天然共生、并具有语义关联的,因此被称作“跨媒体”数据。探索跨媒体数据的语义关联,提升计算机对跨媒体数据的语义理解和推理水平、从而提高人们对跨媒体数据的管理和运用能力,是一项具有重要应用和研究价值的挑战。视觉问答就是一个典型的跨媒体分析推理任务。它将视觉和语言两种典型的媒体形式作为任务输入,并将易于评测的答案作为任务输出。因为视觉问答任务需要机器同时表示、理解视觉和语言,并且需要结合两者进行推理,故而也被称作“视觉图灵机”和“人工智能完备的”(AI-complete)。本文在深入研究视觉问答任务难点、广泛分析已有研究工作的基础上开展工作,主要的研究成果包括:提出了一种基于特征关系的差分融合视觉问答模型,通过将视觉特征和语言特征都映射到差分模态,更好的表示跨模态信息。首先提出了一种差分网络(Differential Networks,DN),利用差分网络将不同模态的特征映射至差分模态;其次,利用差分融合(Differential Fusion)建模差分模态间的特征交互。在公开数据集上的实验表明差分融合性能优于已有的线性和双线性融合方法,能够更好的拉近不同模态的距离。提出了一种基于实体关系的比较注意力视觉问答模型,通过实体之间的两两比较,更好的筛选跨媒体信息。首先提出实体差分注意力(Object Difference Attention,ODA),通过实体间的差分运算,得出实体间的两两差异,然后利用这些差异信息去选择对回答问题有用的视觉实体;其次,将实体差分注意力扩展为更通用的比较注意力(Comparable Attention,CA),并提出了四种比较注意力核。在公开数据集上的实验表明比较注意力性能优于已有的非比较注意力方法,并且不同的比较核擅长回答不同类型的问题。提出了一种基于高阶关系的链式推理视觉问答模型,通过迭代的产生新实体和新关系,以更好的决策跨媒体信息。模型包含关系推理(Relational Reasoning,RR)模块以计算实体之间的复合关系、实体精炼(Object Refining,OR)模块将复合的关系精炼为新的复合实体;基于以上两个模块,构建了链式推理(Chain of Reasoning,CoR)结构,通过迭代的关系推理和实体精炼,逐步推理得出问题的答案。在公开数据集上的实验表明链式结构性能优于已有的并联和串联结构,并且推理的中间结果具备可解释性。提出了一种基于样本关系的知识记忆视觉问答模型,通过寻找相关样本,组成上下文知识记忆,以更好的丰富跨模态信息。首先提出知识记忆(Knowledge Memory,KM)模块,训练了一个Bert分类器,判断问答的答案是否暗含在另一个问题中。然后将所有可能暗含答案的问题组成记忆段落,并将其应用到一个包含多层面的表示和交叉头推断的动态推理机(Dynamic Reasoning Machine,DREAM)模型中。DREAM目前是GQA Challenge的第一名,在binary类问题和open类问题上全部取得了最佳性能,分别为80.54%和68.60%。实现了一个视觉问答研究演示系统。该系统以研究为目的,能够比较在不同图像、不同问题、不同模型下,输出答案和解释的动态变化,以帮助研究者更好的分析模型的表现。
其他文献
随着社会生活水平的提高,旅游活动变得越来越普遍,伴随着旅游活动的普遍性和旅游人数的增加,旅游中的突发事件也越来越多,旅游活动中的突发事件难以预测,对旅游场景识别和监测是提高对旅游突发事件应对水平的有效手段。如何针对这些跨媒体数据进行语义学习和实现旅游场景识别和监测是一个严峻挑战。针对旅游场景识别,一方面要提高识别的准确率,另一方面要对场景的语义进行理解,最终实现场景识别和旅游场景监测。本文完成的主
社区中心是整个社区的功能核心和交往纽带,在未来社区中,社区中心应呈现怎样的面貌,如何给社区生活带去积极影响,是我们一直思考的问题.在松柏片区社区综合体项目的建筑设计中,我们通过分析公园城市和未来社区的特征和规划建设要求,在文化地标、公共客厅、融合共生、功能复合、立体开放、慢行优先等几个方面进行了重点考虑,将社区打造为高品质生活宜居地,塑造充满活力、富于创造的社会氛围和生活场景.
为提升建筑专业施工图设计质量,探索存在的问题和提升的方法,经过总结归纳,创建了以《管控要点》为核心的建筑专业施工图设计质量管控体系.研究成果经过科技查新,具有良好的推广前景.
随着5G时代的到来,高速高带宽的通信能力在推动着移动互联网领域发展,人们对低延迟、高带宽的流媒体和实时互动应用的需求越发增长。在线教育、娱乐直播、视频会议的云上生活模式已经深入人心,成为了新时代人们的标配。但是,传统的内容分发网络及基于TCP的传输技术还远远不能满足人类对于在互联网上实时音视频互动的需要,实时流媒体分发技术的发展迫在眉睫,亟待新的方法解决实时流媒体在网络传输中的质量问题。本课题研究
自房地产行业蓬勃发展以来,企业侧重采用以土地持有为核心的重资产运营模式.随着时代的发展,在新时期的经济环境背景下,面对中央坚持“房住不炒”“三道红线”等宏观调控政策,重资产模式严重阻碍了企业可持续发展,因此,企业以求转型谋发展,轻资产运营模式应运而生.但转型后企业自身的财务风险也逐渐凸显,对其的研究显得尤为重要.本文尝试分析保利地产在轻资产模式运营中所存在的一些问题,提出应对其未来财务风险防范措施的对策建议.
随着我国地方政府社会化建设进程飞速发展,经济建设牵引着我国各行各业转型,投融资平台公司作为承担基础设施建设等公益性项目主体的国有企业,在经济进程中扮演着重要的角色,通过为公共事业运营筹集资金,在促进当地经济发展发挥了积极的作用.在完成使命的过程中,也对地方政府投融资平台公司市场化建设带来了新的压力,向市场化转型势在必行,为深化投融资体制改革,促进平台公司转型发展,提高公司可持续融资能力.本文对地方政府隐性债务的处置、推进平台公司市场化转型与投融资创新进行了研究.
在新中国诞辰72周年前夕,《“新北”生活:北航社区设计成长记》(北京市建筑设计研究院有限公司叶依谦工作室编,天津大学出版社 2021 年 7 月第一版)问世.这虽是本看上去装帧适度的设计作品技术书,但由于他准确、客观地将北航北区学生生活区予以重构的历程深入展示;由于编者与建筑师、学校管理团队积极发掘其中的“故事”且还原设计语境及叙事;由于采用尽可能生动的图文并茂的文风与编辑方式,从而“新北”生活,以约定俗成的文化惯例走进读者(建筑界、教育界乃至社会公众),让高校建筑文化活生生的被人感知.恰如北京航空航天大
我国正在大力推广EPC工程总承包模式,EPC工程总承包企业在承揽项目投标过程中面临着激烈竞争.由于种种因素,设计企业牵头的EPC工程总承包在投标过程中抵御风险的能力往往弱于施工企业牵头的EPC工程总承包企业,因此面临着更高的风险.为了提升设计企业牵头的EPC工程总承包投标风险管控能力,降低投标风险,本文在投标风险因素的识别以及构建风险评价指标体系的基础上,运用模糊评价方法对设计企业牵头的EPC工程总承包投标风险开展风险评价研究,并结合具体的案例.研究表明,该方法能够为类似项目开展投标风险评价提供依据.
多接入边缘计算(Multi-access Edge Computing,MEC)是伴随 5G而来的一项技术,MEC通过将资源下沉到网络边缘,极大的降低了时延、缓解了终端计算压力,在各领域得到了广泛应用。随着MEC服务器的应用部署,其在车联网领域面临的问题及挑战也受到了越来越多关注,如用户关联问题、移动管理问题、资源分配问题等。无人机(Unmanned Aerial Vehicle,UAV)作为一种
在VUCA时代下的设计院,遇到了新就业形态带来的用工关系变革,全新的“去雇主化、平台化”的就业模式,对设计院的管理提出了新的考验.基于此,本文结合当前工程勘察设计行业外部用工环境的发展趋势,分析用工关系变革中的新就业形态,提出设计院应对用工关系变革的具体风险防范措施.