基于知识蒸馏和对抗训练的实体关系抽取研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wukai110032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是自然语言处理领域的基本任务,在知识图谱、自动问答系统、信息检索等领域具有重要作用。引入预训练语言模型对实体关系抽取进行特征编码时,由于其训练时间长且对GPU资源消耗大,所以引入知识蒸馏方法保存深层网络模型(教师模型)的输出来指导浅层网络模型(学生模型)训练,改善浅层网络模型的性能,在资源有限时间紧急时蒸馏后的浅层网络模型表现出很强的有效性。另一方面,为了增强实体关系抽取模型的鲁棒性,同时提高实体关系抽取性能,引入对抗训练方法,对模型词嵌入层的输出添加对抗扰动。本文针对实体关系抽取中出现的预训练编码阶段GPU资源消耗大且训练时间长问题以及模型鲁棒性较弱问题进行研究,主要工作如下:(1)针对预训练编码阶段GPU资源消耗大且训练时间长问题,设计了基于知识蒸馏的实体关系抽取模型LSTMCas Kd。该模型以基于预训练语言模型Bidirection Encoder Representations from Transformers(BERT)编码的基础模型CASREL(教师模型)和基于双向长短期记忆网络编码的基础模型CASRELLSTM(学生模型)为基础进行设计。通过学习教师模型输出中携带的潜在知识提高学生模型的性能,实验表明引入知识蒸馏的LSTMCas Kd模型比CASRELLSTM模型在Web NLG数据集上的F1指标提高0.8%,在NYT数据集上查准率提高2.7%。与现有模型进行对比实验在数据集NYT和Web NLG上F1值优于其他模型。(2)针对实体关系抽取模型鲁棒性较弱问题,首先设计基于对抗训练的BERTCas Adv模型;为研究对抗训练联合知识蒸馏对模型性能的影响,设计基于对抗训练融合知识蒸馏的LSTMCas Adv Kd模型。BERTCas Adv模型在教师模型基础上,引入对抗训练方法,对BERT词嵌入层的输出添加对抗扰动。LSTMCas Adv Kd模型由教师模型对加入对抗训练的学生模型进行知识蒸馏得到。实验表明BERTCas Adv比不加对抗训练的CASREL模型于NYT和Web NLG数据集上F1都提升了0.3%,与现有模型进行对比实验在数据集NYT上F1值优于其他模型。LSTMCas Adv Kd比不加入对抗训练的LSTMCas Kd模型于NYT数据集上F1值提高了0.3%,于Web NLG数据集上F1值提高了0.5%。
其他文献
均热板散热器作为最有效的被动传热装置,被广泛地应用在LED、航空航天等领域电子设备部件的散热。本文首先开展了铝制均热板的结构和制造工艺研究,之后改变外部热源环境(热源面积、位置与分布和数量),对不同充液率均热板的传热性能进行实验和数值模拟研究,旨在归纳总结得出热源环境影响的系统性规律,为工程上根据实际工况条件应用均热板提供参考。结构和工艺研究方面:本研究设计了尺寸为120×100×2 mm3的铝制
突发事件频发对人类生产生活产生了巨大威胁,迅速、准确地收集突发事件相关信息是采取应急措施的第一步。在互联网信息过载时代,靠人工收集信息的方式越来越不切实际,突发事件识别技术可以从海量文本中自动识别事件类型,为突发事件的发布、预警以及后续的追踪和应急方案制定提供信息依据。目前事件识别技术主要分为两种:基于模式匹配的方法和基于深度学习的方法。基于模式匹配的方法在特定领域内简单有效,但可移植性较差;基于
人脸老化合成具有重要的研究价值和广阔的社会需求,是计算机视觉领域中的热点研究问题。人脸老化合成是指以给定人脸图像为素材,依靠计算机技术和图像处理算法,合成出目标年龄的人脸图像。近年来,随着深度学习理论的发展,尤其是生成对抗网络的出现,使得人脸老化合成算法取得了前所未有的进步。由于人脸自然老化十分复杂且与多种因素相关,因此目前仍存在一些研究难点,一方面对于小年龄段面部轮廓老化难以建模,缺少小年龄段人
磷酸镓(GaPO4)晶体作为石英的同构型晶体,具备比石英晶体更高的压电耦合系数,压电性能远远优于石英晶体。与此同时,GaPO4晶体具备较大的双折射系数和倍频系数。晶体本身的非线性光学性质,如倍频系数等受温度的依赖性较小,温度的升高并不会明显改变其非线性光学性质。这在实际的激光器件应用中,有着不小的优势。钽酸镓镧(La3Ga5.5Ta0.5O14,简称LGT)晶体具有良好的压电性能,并在室温至熔点温
突发公共事件尤其是大型自然灾害的频发会给国家、社会和公民带来沉痛的打击。随着社会发展与科技进步,我国应对大型自然灾害的应急能力有了显著的提升,这背后往往需要完备的应急物资救援体系做支撑,应急物资分配则在体系中扮演着至关重要的角色。在大型自然灾害发生初期,灾区最为依赖属地应急救援体系的快速响应,其中属地应急物资分配决策则直接影响着下一步应急救援工作的推进。基于此,本文研究的地震背景下的大型灾害属地应
互联网的发展以及5G的普及,使得短视频成为了DAU(Daily active user)增速最快的细分领域之一,各大短视频平台的竞争关系日益加剧。随着短视频人口红利的触顶,以及流量瓜分的完成,剩下的竞争则围绕着“留量”和“商业变现效率”两个方面。广告主愈发增长的推广需求,以及达人迫切的变现需求,使得商业流量变现系统应运而生,此系统致力于打造达人生态营销平台,通过直播或商业短视频的形式,帮助用户实现
近年来,能源危机与环境污染已成为制约社会发展的关键因素,使得积极发展可再生能源得到前所未有的关注。氢能清洁高效、应用广泛,符合未来发展趋势,开始吸引越来越多的国家和地区重视氢能的开发与利用,基于氢能的直流微网系统也因此成为研究的新课题。本文研究可离网型直流互联微网系统中,风、光、氢、蓄混合发电系统的能量管理及协同优化配置问题,构建了直流微网系统基本模型;并通过K-means算法实现对风电出力、光伏
2,5-二甲基呋喃作为一种可再生能源相较于乙醇具有能量密度高、沸点高和不溶于水等优点,而且近年来由于制备技术的突破,使其制备成本大大降低。2,5-二甲基呋喃作为一种可替代汽油的生物质燃料具有非常广阔的应用前景。本文自主设计和搭建了2,5-二甲基呋喃/空气液体定容燃烧弹实验系统,开展了不同当量比、初始温度和初始压力下2,5-二甲基呋喃/空气层流预混燃烧实验。研究了2,5-二甲基呋喃/空气层流预混火焰
滚动轴承剩余使用寿命预测是基于状态维修的重要一环。电机定子电流中蕴藏着反映电机工作状况的丰富信息。针对HXN3型机车辅助电机轴承使用寿命预测的需求,本文将电机定子电流分析方法引入故障预测,从电机定子电流中提取各诊断指标,用新陈代谢灰色-粒子滤波组合预测模型定量描述机械故障的发展,取得成果如下:(1)电机定子电流相当于检测电机故障的传感器,轴承故障会使电机电流频谱中映射出新的频率成分。根据这一特性,
随着社会发展的日新月异,管道运输以其高效安全、节能环保的独特优势在现今运输领域扮演着愈来愈重要的角色。但是运输管道一旦出现泄漏,将会造成极其严重的后果。有调查数据显示,近六成的泄漏事故均是由于微泄漏未被及时发现而引起的。由此可见,定期对运输管道进行安全检测、及时发现微泄漏并进行维护尤为重要。基于上述背景,论文提出了一种检测输油管道微泄漏的方法,设计并制作出一种通过采集输油管道泄漏声源处的声信号来检