【摘 要】
:
计算机视觉和自然语言处理领域相关技术的迅猛发展,极大地推动了它们交叉任务的衍生和研究。图像差异描述作为图像描述的子任务,受到业界的广泛关注,具有极大的研究价值,其旨在从相似的图像对中定位差异目标,并用自然语言将其中的差异描述出来。这个任务的主要挑战是充分地理解图像对中的内容,以及在图像对中存在视角偏差的情况下,精准地定位其中的差异目标,以生成全面且精确的差异描述。现存的工作聚焦于提取像素级别的图像
论文部分内容阅读
计算机视觉和自然语言处理领域相关技术的迅猛发展,极大地推动了它们交叉任务的衍生和研究。图像差异描述作为图像描述的子任务,受到业界的广泛关注,具有极大的研究价值,其旨在从相似的图像对中定位差异目标,并用自然语言将其中的差异描述出来。这个任务的主要挑战是充分地理解图像对中的内容,以及在图像对中存在视角偏差的情况下,精准地定位其中的差异目标,以生成全面且精确的差异描述。现存的工作聚焦于提取像素级别的图像特征,却忽略了对其中丰富的目标显式特征的挖掘,而这些特征将促进模型生成细粒度的差异描述。另外,现有的生成模型往往受到图像对中视角偏差的影响,难以准确地定位其中的差异。为了解决上述问题,本文提出一个实例级别细粒度的差异描述模型,该模型共有四个模块,它们分别是细粒度特征提取模块、多轮特征融合模块、基于相似度的差异查找模块、以及差异描述模块。首先,为了全面地描述图像对中的差异目标,本文设计了一个细粒度特征提取模块,提取图像中各个目标的细粒度特征,即目标实例级别的视觉特征、语义特征、以及位置特征,并将这些特征作为目标的特征表示。然后,本文设计了一个多轮特征融合模块,将这些目标的多模态特征充分地融合在一起。其次,为了增强模型对图像对中视角偏差的免疫能力,本文设计了一个基于相似度的差异查找模块,在定位差异目标的过程中着重关注目标本身,而不是其中的视角偏差,进而准确地定位图像对中的差异目标。最后,本文使用差异描述模块,用以生成给定图像对的差异描述。本文开展了大量的对比实验、消融实验、可视化分析、以及案例分析。结果表明,与最先进的模型相比,本文所提出的模型在CLEVR-Change数据集和Spot-the-Diff数据集上都达到了不相上下的效果。这进一步证明了采用实例级别细粒度的特征提取办法表示图像对中的各个目标,可以有效地促使模型生成更加全面的图像差异描述。同时,对图像中目标的细粒度特征进行多轮融合有助于充分地融合这些不同模态的特征。另外,采用基于相似度的差异查找方法定位图像对中的差异目标,可以在一定程度上缓解图像对中视角偏差的干扰,进而促使模型精准地定位差异目标。这些发现将为图像差异描述任务提供实例级别的解决思路,进一步推动这项任务的发展。
其他文献
随着不动产登记业务实施细则不断完善,围绕“一窗受理、并联办理”等业务目标,国家在不动产登记业务领域不断提出新的要求。传统的每个市、县分散式实施部署一套不动产登记业务系统的模式,存在资源浪费、数据分散、维护困难等问题。为进一步统筹整合不动产基础设施、数据资源、业务应用与服务系统建设,改进不动产业务应用模式,形成集约、高效、安全的不动产登记系统,本文从不动产登记业务实际出发,分析不动产登记业务流程,通
氧化铝作为机械、石油化工、冶金、化肥工业等行业的主要原材料,已被广泛应用在航天航空、医疗、汽车和半导体行业。针对氧化铝焙烧过程强非线性、流程长、检测滞后等特点以及传统的方法难以实现建模和优化的问题。以广西某铝厂为研究背景,高产优质低耗为优化目标,围绕面向质量产量能耗指标的氧化铝焙烧过程建模与优化开展研究,取得主要研究成果如下:(1)首先,分析焙烧过程的过程机理以及氧化铝生产指标、状态参数和操作参数
近年来,我国在积极推进特色小镇高质量发展。各地特色小镇建设和发展如百花绽放,取得良好的成效,涌现出一批产业特色鲜明、发展较为强劲的特色小镇,为全国其他地区的特色小镇建设提供了重要的经验。但很多特色小镇仍然存在产业基础薄弱、创新动力欠缺和发展后劲不足等问题。截止到2018年,各个省份共淘汰整改419个“问题小镇”,广西入选的14个全国特色小镇也可能面临淘汰整改。在特色小镇建设热潮中,特色小镇怎样才能
我国大中城市居民居住方式主要以高层建筑为主,高层建筑由于人员相对集中,空间小,一旦发生火灾,居民的生命安全、经济财产都将面临严重考验,如何在火灾的前期快速识别与消灭火灾成为目前重点研究的问题。本文针对实际家居环境,研究一种以物联网云平台为基础,结合多传感器数据融合技术与火焰图像识别技术的智慧家居火灾监控系统,旨在实现对火灾数据实时监控的同时提高系统对火灾识别的准确性,并解决系统实时性及可靠性问题。
近年来,我国的游戏产业不仅创造了较大的产值,而且促进了相关产业的发展。游戏产业已经成为娱乐产业和网络经济的重要支柱,甚至已经成为文化产业中非常有潜力的增长点之一,也正是由于网络技术如此发达,网络上才有越来越多的游戏。因此,如果希望游戏在市场上具有竞争力,则必须提高游戏质量,而游戏的用户体验决定了游戏的质量。游戏中角色自动寻路的路径搜索系统一直是一个非常重要的部分,现在游戏整个场景的地图正变得越来越
提质增效的智能加工模式是当下企业适应社会需求、应对激烈竞争的重要研究,可有效促进汽车制造等相关领域的先进加工技术蓬勃发展。工艺参数(主轴转速、进给量等)的选择对加工性能影响显著,参数组合的多样性使得生产机床具有较大的提升空间,如何选择合理有效的加工参数是本文研究的主题。为了实现加工过程中质量、效率和性能的多重权衡,本文以铣削TC18钛合金为例提出基于深度强化学习的提质增效加工优化模型,利用双深度Q
随着深度学习技术的发展,人工智能底层研究日趋成熟,开始迈向涉及语言理解、图像理解和推理的高层应用研究,例如问题生成、机器翻译、图像描述等。其中,问题生成是最具研究价值和挑战性的任务之一,它需要在理解文本或图像内容的基础上,生成没有语法错误、可回答的自然语言问题,这一过程中还往往涉及推理。目前,对于问题生成的研究按输入内容的不同可以分为两类,其一是基于纯文本的问题生成,其二是基于视觉的问题生成。尽管
我国自古以来便是农业大国,水果已成为我国继粮食和蔬菜之后的第三大农业种植产业。随着技术与经济的发展,传统农业逐步向现代化方向发展,果园智能化解决方案不断涌现。现有的果园监控系统存在的成本高、功耗高、数据无线传输距离较短等缺点限制了果园经济的发展与投资效益的发挥。针对果园生产管理现状,本文基于传感器技术、低功耗广域物联网技术、云技术、网络编程技术以及光伏发电技术,研究设计了基于LPWAN物联网的果园
随着卫计委于2019年颁布的《关于印发有关病种临床路径(2019年版)的通知》,体现出我国对医疗费用、医疗质量的管控越来越高,各大医疗机构对临床路径工作的开展和管理也愈加重视。运用信息化的手段协助医护人员临床路径管理工作,成为了医院管理部门聚焦的问题之一。随着我国临床路径管理工作从2009年推行至今,已经发展了十年。随着基于HIS电子病历的临床路径信息管理系统的出现,取代了原先的纸质临床路径模板,
随着政府职能转变的不断深化和信息化发展的不断深入,网上政务服务已经成为政府公共服务的重要形式,“互联网+政务服务”正逐步成为创新政府管理和服务的新方式、新思路。行政审批是现代国家管理社会政治、经济、文化等各方面事务的一种重要的事前控制手段,将行政审批与电子政务、“互联网+”相结合,建设网上行政审批平台,用信息化手段进一步改善和规范政府行政审批过程,对深化“放管服”改革、优化营商环境、推进服务型政府