基于多层次信息聚合的指称表达理解方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ZHY19641030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指称表达理解(Referring Expression Comprehension,REC)是近年来较为流行的计算机视觉和自然语言处理交叉领域的一个核心研究方向。其本质是通过给定的指称语言文本描述,准确定位视觉图像中相应目标区域的一种跨模态视觉-文本任务,因此需要模型能够充分理解复杂的语言文本语义和各种视觉目标的特征信息。尽管目前关于指称表达任务已经取得了显著的进步,许多基于两阶段和单阶段的指称表达模型被研究人员提出。但是由于现实场景中往往存在视觉和语言特征描述差异较大、图像现实场景复杂、语义歧义等问题,使得指称表达任务仍面临着巨大的挑战。为了降低不同模态间差异的干扰,提升指称表达任务的效率和准确率,我们对现有的指称表达研究工作进行了详细的研究,在单阶段框架下提出了两种加深不同模态特征交互的方法,具体算法设计如下:1.针对指称表达任务中视觉-文本模态差异较大,且现有模型在复杂场景中容易受语义歧义影响而出现性能下降的问题。我们提出了一个融合自注意力机制的多模态分层聚合的方法,通过模态间和模态内的特征交互,有效利用文本-视觉模态内部各元素之间的信息联系从而生成更加全面的全局上下文特征表示,实现语义信息的补充与对齐,从而有效提升了模型面对长、复杂语句的处理能力,大大提高模型定位目标的准确性。最终,我们在Flickr30k Entities和Refer It Game公开数据集上进行了大量的实验,相较于之前经典的指称表达方法,该模型在两个数据集上均有不同程度的性能提升,平均精度分别达到69.22%和64.67%,实验结果充分证明了该方法的有效性。2.现有单阶段指称表达模型大多存在缺乏对全局信息的捕捉、视觉-文本上下文特征相互独立的问题,因此许多模型在处理复杂图像内容和长难文本语句的情况时普遍存在性能大幅下降的现象。为了解决这个问题,本文提出了一种基于Transformer结构的单阶段指称表达模型,简称为REC-Tr模型。本文在Transformer模型的结构框架下,设计了跨模态编码器和指称表达解码器两个主要部件。跨模态编码器通过引用多个自注意力层,输出视觉文本的联合嵌入特征信息。解码器将文本特征与编码输出的视觉文本联合特征进行计算,使其在解码器部分能够学习和捕捉与指称表达语句相关的视觉上下文,为指称表达理解提供更加全面、准确的信息。最终,我们在Flickr30k Entities、Ref COCO、Ref COCOg三个公开数据集上进行了实验,实验结果证明相较于之前的单阶段指称表达方法,基于Transformer的REC-Tr模型有较为显著的性能提升,尤其在Ref COCO Test A数据集上平均精度达到了82.09%,远远优于之前的大部分方法。
其他文献
随着交通在社会生活中变得越来越重要,汽车给人们带来了许多便利之处,也不可避免的会在不同的时间和地点造成交通拥堵,导致道路交通事故、污染和数十亿美元的生产力损失。随着智能交通系统(ITS)的发展,车联网(Internet of Vehicles,Io V)中的自组织网络环境(Vehicular Ad hoc Networks,VANETs)在车辆之间直接交换运动学数据的可能性,是实现智能交通系统(I
学位
情绪劳动是当前学术界研究的热点问题,国内外学者对情绪劳动的研究多集中于商业、教育、医疗等领域,直到近几年,学者们才关注到公共服务领域中的情绪劳动问题,但是对基层社区工作者情绪劳动问题的关注少之又少。当前,社区工作者发挥着日益重要的作用,上接政府,落实政策,下联群众,服务居民。社区工作者每天付出着大量的情绪劳动,同样属于高强度的情绪劳动工作者,因此,将社区工作者纳入情绪劳动研究的范围具有重要的现实意
学位
传统设计工作模式以二维图纸为核心,设计工作完成后再逆向建立效果表达模型,产生大量重复工作,降低工作效率。针对该问题,基于Sketch Up系统阐释了标准化建模工作模式的内容与实际工作中的应用,试图探索出从正向设计全生命周期工作模式出发,以三维模型为核心,形成标准化建模体系,从而降低重复工作,提升设计效率。
期刊
改革开放以来,内蒙古牧民奶业经营方式从改革之初的自给自足经营方式发展到现在的进入市场以及大规模经营模式当中,经历了诸多转变。本论文以巴林右旗巴彦塔拉苏木的宝木图嘎查为例,在该嘎查做的田野调查的基础上,结合民族学的文化变迁理论和文化功能理论,并运用纵向对比研究法,探讨了了改革开放以来宝木图嘎查牧民奶业经营方式的变化。该嘎查于2004年以前自给自足的方式经营奶业,2004年第一次尝试规模化奶业经营方式
学位
目的 探究双能X线检查联合骨代谢指标在糖尿病合并骨质疏松患者中的应用价值。方法 前瞻性选择2020年3月至2022年3月我院收治的100例糖尿病患者作为研究对象,根据骨质疏松情况将患者分为骨质疏松组(n=58)和非骨质疏松组(n=42)。比较两组患者的一般资料、实验室指标、双能X线检查指标及骨代谢指标;采用多因素Logistic回归分析影响患者合并骨质疏松的因素;采用受试者工作特征(Receive
期刊
近年来,气候变化与环境可持续发展在世界各地得到了广泛的关注。电气化铁路的飞速发展有效减少了碳排放,在交通运输方式中占据重要地位。由于列车在制动过程中优先采用再生制动,会产生大量的再生制动能量。这些能量包含谐波及负序分量,给电网带来了严重的电能质量问题,直接影响了铁路部门的经济效益。发展带有储能技术的电气化铁路,合理利用再生制动能量是改善运行经济性、节约能源的有效方法。本文提出了一种采用铁路功率调节
学位
道路交通对文化传播有着不可代替的重要作用。因此,在某种意义上,道路交通是人类社会文化传播的载体。道路等基础建设的完善和发展是文化传播的主要条件,道路的修建及交通方式的变化会对一个社会群体、一个地区带来巨大的影响。本论文以赛汉塔拉镇为例,分析基础设施对牧区的影响。道路交通建设及其发展,对赛汉塔拉镇而言,具有发达经济,改变生态生计和影响社会文化的不同意涵。作者利用实地调查方法所收集到的资料,观察道路交
学位
我国铁路建设事业飞速发展,这都得益于国家的政策支持,使得我国在铁路建设方面的成就已经成为一张亮丽的名片。在发展的过程中,弊端和利益可谓同时出现,高昂的建设成本和缓慢的利润回收严重拖累该行业经济上升。A企业作为铁路建设运营的管理公司,已经发现这个问题的严重性。但是铁路建设不能因此停滞,经营盈利不能急于一时。其中采购环节作为铁路事业重要环节,作为买卖双方利益博弈的关键点,对铁路事业经济影响极为重要。本
学位
水电站的生产基地属于水电站重要的建筑基础设施,水电站的正常作用功能发挥必须建立在大型生产基地的保障前提下。现阶段的水电站大规模生产基地已经趋向于标准化的完善改进,采取立体建模的技术实现方案来确保水电站的生产基地建设质量提高。标准化建模的工程技术方法应当融入贯穿在水电站的生产运行全过程,采取建模设计的标准化理念来完善生产基地的建筑体系结构,合理节约水电站的生产基地建设实践资源。
期刊
对于房地产公司的销售人员而言,激励效果出色的绩效考核体系有助于提升员工的工作动力,同时也是房地产公司吸引新员工加入的重要手段,而对于房地产企业而言绩效考核体系的设计一直以来都是人力资源管理的核心任务。A房地产公司自成立以来,以楼盘项目的开发销售作为公司的主要业务,因此销售人员是作为公司楼盘项目转化为业绩的关键。然而A房地产公司的绩效考核体系不完善且绩效激励效果一般,导致销售人员的工作成果一般且人员
学位