基于知识驱动的预训练语言模型研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xiahou001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受益于近年来无需人工标注的自监督方法被提出以及大规模语料库的产生和普及,只需要少量数据在特定任务上进行微调便可以达到不错效果的预训练语言模型一经提出,便在各个领域取得了令人瞩目的成就,其中BERT更是一举刷新了NLP领域的11项记录。但是,研究人员逐渐发现仅基于单纯的预训练模型在面对一些复杂应用场景(如常识推理、领域自适应、知识驱动型任务)时,仍然和人类预期的效果存在差距。如何利用外部知识辅助神经网络模型更好地理解输入文本,是一个值得思考和探讨的问题。而知识图谱作为一种被持久化存储的知识库,其中包含了模型迫切需要的丰富结构化知识,可以被作为有效的外部知识注入到预训练模型中。然而,传统的知识增强模型仍然存在一些尚待解决的问题,如在引入知识图谱时,知识处理不够充分,仅考虑了实体自身的部分信息;在进行知识融合时,由于语言模型和知识图谱对单词的表示存在于两个完全不同的向量空间,会面临异构信息融合问题。另外,经常作为骨干模型的BERT、Ro BERTa等均限制其最大输入长度为512,将超过的部分截断、不足的则补齐。这在很多NLP场景中是比较不合理的,如新闻报刊等长文本中,其输入长度会很轻易超过这个限定值,采取这种做法会丢失大量的语义信息。同时,预训练语言模型对于输入文本本身蕴涵的信息利用也不够充分,一般做法只通过attention机制获取每个词的理解语义,忽略了经过依存句法分析后的词汇间依赖关系也可以作为一种对理解输入有益的外部知识。为此,在本文中我们针对上述场景中存在的问题进行了以下实验探索:1)基于ERNIE预训练语言模型,进一步融合Wiki5m知识图谱中的实体描述信息以及由整个Wikidata三元组生成的KELM-corpus语料库文本信息作为外部知识用于增强模型学习语义表示的能力,既增加了注入的知识,也缓解了由于知识图谱和自然语言文本语义空间维度不一致导致的异构信息融合问题。2)利用Stanford Core NLP、LTP等自然语言处理工具包以及基于规则的依存句法分析事件元素抽取方法,抽取出输入文本中包含的事件要素,整合后作为附加外部知识输入到预训练模型,以缓解模型由于最大输入长度限制而导致信息丢失的问题。3)利用GCN网络聚合由输入文本生成的依存句法图,分析词汇间的依赖关系,再融合BERT模型充分挖掘和利用输入文本自身的知识,以获取到语义增强的词嵌入表示。实验结果表明,我们的方法在Few Rel、TACRED、IFLYTEK、Co LA等中英文数据集上与基准模型相比效果均获得提升。
其他文献
随着我国城市化进程的不断推进,城市轨道交通飞速发展,截至2021年,全国已有45座城市开通直流地铁线路。牵引列车呈“源荷”二象性,因此牵引负荷区别于大工业电力负荷,其具有较强的冲击性和波动性。既有研究聚焦于牵引负荷对电网的影响,鲜有针对地铁直流时变负荷特性的研究。因此,选取国内某典型直流地铁线路,在其牵引变电所加装测试设备,长时间连续测量电压、电流等相关电气量。然后,基于实测数据,以日负荷曲线为研
期刊
环烯烃聚合物是由环烯烃通过开环聚合或加成聚合获得的一种具有高附加值的热塑性工程塑料。通过环烯烃与α-烯烃共聚而成则称为COC(Cyclic Olefin Copolymer),其具有高透明性、低折射率、玻璃化转变温度可调节、高强度、耐酸碱、低吸水率等特性。但是在氧气阻隔性能方面,其与高阻隔包装材料的要求还有一定差距,为了拓宽其应用需对其进行阻隔性能改性。本文先将有机改性蒙脱石(OMMT)与COC树
学位
报纸
<正>宝鸡职工培训基地作为集干部职工业务培训、学历函授教育、特殊工种培训为一体的综合性培训机构,肩负着为西安铁路局培养高素质技能人才,为安全生产一线输送合格"工匠"的重任。我们突出把握"强基达标、提质增效"工作主题,以提高职教工作人员素质为根本,强化责任担当,加强师资队伍建设,着力
会议
利用Pro/E建立工作机构的三维实体模型,使用ADAMS建立其虚拟样机仿真模型,采用AMESim建立其液压系统的仿真模型,针对最大破碎深度作业姿态搭建了机液联合仿真模型,得到了各油缸的位移、速度和压力曲线、不同作业方式和不同负载的功率曲线、改进前后液压系统的压力特性对比曲线以及不同直径阻尼口系统的启动、制动曲线。研究表明:位移、速度和压力曲线波动幅度较小且趋势相对平稳,满足作业性能需求;在作业时间
期刊
直接采用设计公式进行鉴定优点是简单通用,但随着既有建筑结构鉴定理论的深入研究,基于可靠指标调整构件承载力分项系数的鉴定方法更为合理,既能充分利用既有建筑的实际现状,又能避免潜在的不定性风险。本文基于可靠指标对构件承载力分项系数分解算法进行比较,重点阐述抗力分项系数、材料强度分项系数的调整算法研究,并通过工程算例阐述在既有建筑结构鉴定中的应用。通过研究比较可知,对于既有建筑结构按调整抗力分项系数、材
期刊
针对通用规范实施后鉴定人员的疑惑,从既有建筑鉴定与加固的荷载取值与作用组合、抗震鉴定时设防烈度与后续工作年限确定、C类建筑的抗震鉴定方法、第二级抗震鉴定方法以及安全性鉴定与抗震鉴定的关系几个方面,对通用规范的条文进行了解释,指出了通用规范中的不足之处,提出了实际鉴定与加固时的建议。
期刊
目的探讨长期低剂量电离辐射对放射工作人员免疫水平、微核形成及染色体畸变的影响,为保护放射工作人员免受职业照射损伤提供依据。方法 2018年选取新疆某测井公司、机械制造公司等企业的455名低剂量电离辐射作业人员为研究对象,测定个人剂量和免疫球蛋白含量,随机抽取59人进行淋巴细胞染色体畸变率和微核率的检查。结果石油测井和工业探伤作业人员人均年有效剂量为(4.10±1.39)和(2.36±0.74)mS
期刊
目的探讨X射线照射离体人周围血淋巴细胞染色体畸变的量效关系,建立双着丝粒体(dic)+着丝粒环(r)的剂量-效应曲线。方法采集3名健康人肘静脉血,经0.00、0.25、0.50、0.75、1.00、2.00、3.00、4.00和5.00 Gy X射线(剂量率为1.158 Gy/min)离体照射,常规培养、收获和制备染色体标本,显微镜下分析并记录dic和r的畸变数;采用CABAS软件拟合建立dic+
期刊
随着现代工程建设的高速发展,在建工程项目数量和规模日益庞大,科学的施工管理是保障工程质量、安全和进度的重要环节。传统的施工管理方法粗放且管理手段落后,存在管理成本高、效率低、安全风险大等问题,因此需要引入数字化、智能化的施工现场管理方法。为克服传统管理手段的弊端,本文提出了基于无人机及计算机视觉的智慧工地管理方法,研究利用无人机技术全方位收集工程信息,基于倾斜摄影实现施工场地精细化三维模型构建,采
学位