基于注意力机制的远程监督关系抽取研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hzy11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是自然语言处理领域中的常见任务,其能够从大量文本中抽取到实体对之间表达的关系,用于诸如知识图谱补全、问答系统等下游任务。其中能够自动生成标注数据的远程监督关系抽取方法逐渐成为研究热点。现有的远程监督关系抽取模型中主要存在以下不足:首先,在远程监督关系抽取任务中很多模型没有对文本上下文信息进行全面的特征抽取;其次,远程监督关系抽取任务中很多模型没有对局部特征和全局特征进行有效融合;第三,大部分模型忽略了关系自身的层级信息以及关系与关系之间的潜在联系,没有对这方面进行深入挖掘;最后,数据集存在的长尾分布问题没有得到足够重视,导致训练出来的模型与真实场景表现存在偏差。针对上述存在的问题,本文开展了深入的研究工作,主要完成的工作如下:1、调研自然语言处理、关系抽取、远程监督等相关领域的科研文献,深入研究现有的远程监督关系抽取算法,分析并总结了现有模型的不足与可改进之处。2、提出了一种基于自注意力门控融合单元的句子级远程监督关系抽取模型(SS-Att)。现有的句子级远程监督关系抽取模型中存在上下文特征抽取不足以及局部特征与全局特征没能有效融合的问题。本文模型融入新的文本特征来增强输入特征的表示,并利用门控单元将自注意力模块与分段池化卷积神经网络结构相结合,在抽取更全面的文本上下文特征的同时,将局部特征与全局特征进行有效融合,得到更丰富的高阶特征,从而提升模型在远程监督关系抽取任务中的效果。3、基于SS-Att模型以及层级关系建模算法,提出一种新的基于自注意力的多标签远程监督关系抽取模型(MLAN-FM)。现有的远程监督关系抽取模型大多是基于单标签进行分类的,而远程监督关系抽取实际上是一个多标签分类任务,本文基于已提出的模型进行适配改进,提出并设计了一种层级关系建模算法,用于对层级关系特征信息进行深入挖掘并对文本语句特征进行关系增强。同时,设计一个新的损失函数,根据数据类别的分布来自适应地调整其在梯度下降时的权重更新情况,从而缓解数据分布不均匀带来的影响,提升其多标签分类任务的精度。4、针对以上提出的两个模型,分别对其在公开的标准数据集上与多种先进的远程监督关系抽取模型进行对比实验并加以分析,在对应指标上取得了更优的效果,通过实验结果验证本文提出的两种模型的有效性。
其他文献
在许多新兴城市,有各种关于以交通为导向的基础设施投资和交通政策的建议。然而,在决定方案之前,缺乏一种了解可行的投资战略、社会经济趋势和出行行为模式可能产生影响的评估方法。上述方法可以对当地的交通需求进行精准的识别,同时可以进行所有可能的公共交通相关交通需求管理措施的评估。本硕士论文旨在帮助决策者捕捉南京市江宁区当前的出行行为和网络状况,更好地预测未来的出行模式,并根据当前存在的问题或挑战实施未来的
学位
水泥基材料是应用最广泛、使用量最大的建筑材料,但它属于脆性的多孔非均质材料,存在抗折强度低、韧性差等问题,掺加聚合物改性是改善水泥基材料固有缺陷的有效方法之一。聚合物改性水泥基材料存在分布不均匀、相容性不佳等问题。同时,适合水泥基材料改性的聚合物种类很少,聚合物改性的效果大多是不理想的,常规的聚合物改性水泥基材料在抗折强度方面普遍只有20%-50%的提升。因此,迫切地需要对聚合物改性水泥基材料寻找
学位
近年来,分布式计算技术在数据聚合、智能电网、机器学习和社交网络等领域得到了广泛应用。作为分布式计算领域的一种常用方法,平均一致性算法主要是通过分布式的方式对一组数据进行计算并获取该组数据的平均值。此外,随着物联网技术的快速发展,人们对网络安全的需求逐渐提高,隐私泄漏风险问题引起了越来越多的关注,如何设计具有隐私保护特性的一致性算法成为了热门研究课题并具有极大的工程应用背景。基于此,本文设计了几类新
学位
随着阵列信号处理技术的发展,对声阵列测试技术提出了越来越高的要求。传统波束形成和谱分析技术受限于小快拍数、低阵元数目等客观因素,在声信号处理中逐渐被新的理论方法所取代。而压缩感知(Compresses Sensing,CS)以所需采样数据少,不受Nyquist采样定律限制等优点受到越来越多的关注。但是目前压缩感知理论在阵列测试中的应用还处于起步状态,对测试矩阵的物理实现——声阵列构型,尤其是阵列构
学位
随着中国社会经济的高速发展,现代储能系统和新能源电动汽车领域等都对储能电池的能量密度和制造成本给出了更高的要求。因此,研究和开发高能量密度、高安全性和价格便宜的储能电池及其关键材料有重要意义和发展前景。其中无钴富锂锰基正极材料(x Li2Mn O3·(1-x)Li Ni0.5Mn0.5O2)因其具有相对较高的放电比容量(>250 m Ah·g-1)、较低的成本和较好的安全性等优点而受到关注。但其在
学位
随着新冠疫情的发展,健康码系统在常态化疫情防控工作中发挥着关键作用。健康码系统涉及了大量的个人行程数据和健康数据等隐私信息的申报和验证等操作,系统运行中存在个人申报信息的可信性和隐私信息安全保护两个关键问题。就目前实际的疫情管控情况来看,个人谎报行程数据严重影响了疫情防护工作,隐私信息的泄露也给部分个体带来了严重的社会影响。除健康码系统外,安全、可信的数据共享问题还广泛存在于各种隐私信息共享系统中
学位
在光电探测领域,传统的直接探测技术已经逐渐无法满足对经过长距离大气衰减的微弱光信号的有效探测。而基于脉冲光的相干探测技术由于其高探测灵敏度、强抗干扰能力以及较远的探测距离等优势,已逐渐成为当前研究的重点,常应用于测距、测气体浓度、测风速等多方面。评价一个相干探测系统性能效果的主要技术指标为探测灵敏度,即探测端能探测到的最小信号回波光功率。本文主要结合数字信号处理技术,对零差、外差两种不同方式的相干
学位
目前大量中英口译研究是从中文为母语的口译员的视角出发,从英语为母语的口译员的视角进行的英译汉研究较为少见。在“人工智能与新冠疫情”主题的模拟会议中,笔者作为英语为母语、中文为第二语言的译员,进行了英译中交替传译。基于对译文转写稿的考察,笔者发现自身的译语产出存在较大问题。本论文从笔者在模拟会议英译中产出中存在的问题入手,试图从英语为母语译员角度出发,分析他们在口译过程中遇到的困难和问题,从中总结和
学位
“十四五”规划《建议》强调新发展格局决不是封闭的国内循环,而是开放的国内国际双循环。“一带一路”能够促进更高水平的对外开放,为内外循环的协调发展注入新动力,这是“国内国际双循环”战略中必不可少的一部分,中国与“一带一路”沿线国家的科技合作需要进一步加深,进而推动“一带一路”的高质量发展。专利是科技创新的重要成果形式,能直接体现科技水平和创新能力,跨国专利合作则是国际技术转移和扩散的重要途径,对各国
学位
近年来,中国游戏在出海方面取得不小的成功,游戏外译需求呈上涨趋势,对翻译质量的要求也越来越高。中国文字冒险手机游戏的英译当然属于此类需求的一部分,而译者在翻译过程中会遇到一定的挑战。本文基于文字冒险手游《姬魔恋战纪》脚本英译项目,总结出其中存在的三大难点,并提出相应的翻译策略。笔者研究发现《姬魔恋战纪》这一国产手游的脚本存在三大特点:深受日本ACG亚文化影响、脚本交互式递进呈现、内容以角色对话为主
学位