基于实体推理与对齐的指代表达理解模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhoulina1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代表达理解是自然语言处理领域最具挑战性任务之一。给定一段指代表达的文本(例如“桌上的苹果”)以及一幅图像,指代表达理解任务旨在理解文本“桌上的苹果”中的指代关系,然后给出图像中所指代的“苹果”的位置。现有的指代表达理解模型文本处理粒度基本都是语句级,这种粗粒度的处理方式会损失语句中的指代关系。同时,现有指代表达理解模型的推理过程缺乏可解释性,阻碍了其推理能力的提升。因此,如何采取更细粒度的方式处理文本并且解释模型的推理过程,将是提高模型性能以及推理能力的关键。针对上述问题,提出了基于实体推理与对齐的细粒度指代表达理解模型。通过语义角色标注与关系抽取的方式,从指代表达理解任务的文本提取出可用于推理的关系三元组(主体,关系,客体),从而细化了文本处理粒度,使模型能够应对复杂语句。此外,使用Transformer模块将图像特征与文本特征的进行融合,并通过掩码语言建模、掩码区域建模和图文匹配将文本特征与图像特征进行初步对齐。然后在图文特征初步对齐的基础上,提出基于注意力机制的文本中实体推理方法,并将推理得到的结果继续进行二跳以及多跳的推理。最后,在推理出主体的基础上实现主体与图像中区域的对齐。经过大量实验验证了所提出的基于实体推理与对齐的指代表达理解模型的有效性。相比于传统模型,所提出模型在Refcoco、Refcoco+和Refcocog数据集上的准确率平均提高了约1.8%。此外,通过针对关系三元组元素的消融实验,关系三元组各个元素对提升模型性能的必要性。通过超参实验,确定了本文模型的最佳参数,最后通过将本文模型中的注意力权重进行可视化,说明了本文模型的可解释性。
其他文献
压缩感知(Compressed Sensing,CS)理论指出:信号只需满足可压缩或在一个特定域中有一定稀疏性,便可以通过和稀疏基不相关的观测矩阵进行线性观测,并通过算法重构得到初始信号。先验信息是指主体在观察该事物之前已经具有的关于该事物的信息,其在在信号重构中至关重要。目前CS重构算法大多只考虑图像的单个先验信息,如非局部低秩,先验正则等,对于不同图像重构的效果波动很大,抗噪能力也不强。且非局
学位
芯片诊断是一种基于诊断工具分析不合格芯片的测试数据、电路网表以及电路响应的过程,用于对其中的真实故障进行定位。芯片诊断分辨率反映了芯片诊断结果的精确程度,较高的诊断分辨率能极大地节省后续物理失效分析的成本,有助于发掘集成电路出现故障的问题根源,进而达到改善芯片生产工艺、提高芯片生产良率、降低生产成本的目的。芯片诊断的输出是一组疑似故障位点及其邻域上的状态,电路中的故障与其邻域有着密切的联系。现有的
学位
人机物三元空间智能融合成为时代发展的新浪潮,如何有效处理和利用由人机物之间频繁交互而产生的大量高阶高维数据,是促进人机物智能快速发展所面临的重大挑战。传统深度学习算法经过多年发展,在对象检测、目标跟踪等领域取得了巨大的成功,而随着其与人机物智能的深度结合,传统深度学习面临的问题愈加凸显:第一,其大都是在向量空间中对数据进行表征和处理,在对信息-物理-社会系统中产生的高阶高维数据建模时,会破坏数据的
学位
布尔可满足性问题是计算机科学领域中一个十分重要的问题。它是第一个被证明为NP完全的问题,自提出以来,就得到了广泛的研究。许多著名的NP完全问题经常转化为布尔可满足性问题进行求解。另外,该问题在人工智能、形式验证以及电路设计等多个学科领域均有着实际的应用价值。目前,布尔可满足性问题的现代求解算法能够在可接受的时间内求解大规模算例并且可以取得高质量的求解方案。但算法依靠专家经验根据不同的算例特征设置相
学位
伴随着医疗数据的不断增长以及医疗智能的持续发展,医疗数据的潜在信息与价值对公共健康领域的影响越来越大,例如新冠胸透数据在不同区域不断呈现出新的病症变异特征,这直接影响诊断判别标准。但是由于胸透数据蕴含患者的个人信息,具有高隐私性与高保密性,无法大范围共享。在这样的背景下,医疗数据的信息挖掘与共享的过程显得异常艰难。近年来联邦学习作为高效的、支持多机构参与的分布式计算框架,用户可以通过共享梯度来学习
学位
在存算分离型数据库管理系统中,重做日志(redo log)在计算层和存储层的数据一致性上起到了关键作用。重做日志写入缓冲区和重做日志持久化是重做日志处理过程中比较重要的两个环节。因此,对这两个环节进行优化可以提高系统性能、简化节点之间的合作逻辑,使系统能更好的面对高并发、高连接且易于维护。针对存算分离型数据库管理系统在重做日志缓冲区结构、锁机制、线程调度和网络通信等方面的不足之处,给出了改进优化方
学位
脑胶质瘤为最常见的颅内恶性肿瘤,临床需要从T1、T1ce、T2、FLAIR四个模态的磁共振图像中分割并区分出包含坏死核心、增强核心、周围水肿的肿瘤区域。目前基于深度学习的多标签分割算法有较好的效果,但需要大量带注释的数据集参与网络训练。针对现有的脑胶质瘤数据集较小的问题,使用生成对抗网络(Generative Adversarial Nets,GAN)的方式生成数据以扩充数据集。脑胶质瘤影像对图像
学位
图模式匹配在图挖掘中是一类具有挑战性的问题。首先,模式图中顶点或边的搜索顺序与性能密切相关,不同的搜索顺序可能会导致最后的执行时间相差几个数量级,其次,由于模式图普遍存在对称结构,对称结构在模式匹配的过程中会不可避免地映射到同一组嵌入,从而引发了冗余计算,这还会导致最终匹配结果中存在自同构,最后,在枚举子图的过程中,中间子图规模,计算量呈指数级别增长,系统的内存消耗往往很大。为解决以上问题,单机图
学位
随着监控摄像头的大量铺设和无死角覆盖,每时每刻都可以产生海量的视频监控数据,许多在公共区域发生的异常或危险行为都能够被捕捉并记录。使用人力难以对海量的视频监控数据进行长时间观察,因此研究利用人工智能算法自动对视频监控中的内容进行分析,识别出视频监控中的有效信息,具有重要的理论价值和实际意义。针对监控视频中的异常事件识别问题,提出基于时序上下文增强和多流双头图卷积的异常事件识别模型。该模型包含异常事
学位
乳腺癌是女性发病率最高的癌症,严重危害女性健康。及时诊断能有效地提高乳腺癌治愈率。乳腺X射线摄影是目前筛查乳腺癌最常用的方式。肿块是乳腺癌最常见的病理特征之一,依赖有经验的医生进行识别。研究乳腺肿块自动化分割具有重要的意义。深度学习技术被广泛应用于肿块分割,现有方法存在肿块边缘分割精确度较低,对致密型乳腺适用性受限的问题,围绕以上问题,开展了以下工作。针对医学影像纹理复杂,内部相关性大的特点,提出
学位