基于深度学习技术的文本实体关系抽取研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:lala_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,每时每刻都有大量非结构的文本涌现。实体关系抽取旨在从非结构化的文本抽取出实体以及实体之间的语义关系,从而将非结构化文本转化为关系三元组<主语,关系,宾语>。关系三元组是构成知识库的基本单位,因此实体关系抽取是构建知识库的基础工作,也是众多上游自然语言处理任务的重要工具。经过几十年的发展,实体关系抽取取得了长足的进步,与其相关的研究已经达到了较高的水平。然而,现有的实体关系抽取模型普遍存在过拟合现象以及冗余运算和曝光偏差的问题。本文针对这些问题进行了研究和探索,将贡献总结如下:1.针对现有的关系抽取模型存在过拟合问题,提出了融合实体类别信息的关系抽取模型。该模型引入实体类别信息,在预处理时使用实体的类别信息代替实体本身,缓解了模型对实体组合的过拟合现象。其次,使用BERT模型中隐藏的Transformer层,获取句子表征向量、实体类别表征向量以及实体表征向量。再次,使用线性合并层将这些向量进行融合,得到各自的最终向量表示。最后,将这些向量进行拼接,得到关系向量表示,输入到Softmax层进行关系预测。本文在SKE数据集上进行了实验,将所提模型与六种基线关系抽取模型进行对比。实验结果表明,引入实体类别信息有效地缓解了过拟合现象,提高了模型的泛化能力。2.为了进一步提高实体关系抽取模型的性能,在关系抽取的基础上,本文对实体关系联合抽取进行了探索。针对现有的实体关系联合抽取模型存在冗余运算和曝光偏差的问题,提出了关系优先的联合实体关系抽取模型。该模型优先抽取实体之间的关系,避免冗余计算,使用二进制指针标记两个实体的首尾,将实体抽取转化为多序列标注问题,再使用条件层归一化融合先验信息,缓解曝光偏差。首先,该模型使用BERT作为句子编码层,将BERT输出[CLS]的编码作为句子表征向量,使用该向量预测关系。其次,使用将这个关系作为先验知识,使用条件层归一化将先验知识和BERT输出的句子编码进行特征融合,得到实体表征向量。最后,将实体表征向量输入到Softmax层中预测实体的首尾位置,进而得到该关系对应的实体。本文在YNT和WebNLG数据集上进行了大量实验,并将本文模型与基线模型对比,实验结果表明所提模型有效地缓解了冗余和曝光偏差问题。特别地,该模型能够有效地适应于实体重叠的情况。
其他文献
干旱缺水与水土流失是制约黄土高原可持续发展的两大瓶颈,也是导致该区生态脆弱的根本原因。为了调控降雨径流,实现雨水资源化,减轻水土流失,发展了一种重力式地下孔灌系统。为方便重力式地下孔灌土壤水分运移规律的评估,增加系统的广泛适用性。本文将土壤水动力学理论作为研究的基础,运用HYDRUS-2D/3D软件模拟不同影响因素组合情景下的土壤水分入渗过程,分析拟合建立经验模型,并利用试验数据验证经验模型的可靠
学位
本论文首先设计并合成了磷-硼杂化本征型阻燃水性聚氨酯(FRWPU)分散体,然后以FRWPU分散体为成膜物质和基体树脂,制备了阻燃纸张施胶剂和阻燃控温瓦楞纸箱填充剂。通过红外光谱(FTIR)、核磁共振(NMR)、X射线光电子能谱(XPS)、扫描电镜(SEM)、能谱分析(EDS)、热重分析(TGA)及接触角测定对FRWPU的化学组成、微观形貌、热稳定性和疏水性能进行了表征测试;以FTIR、XPS、SE
学位
随着我国社会由快速发展转变为高质量发展,环境污染便是人们无法避免的问题,尤其水环境的污染,不仅对生态环境造成极大的破坏,也时时刻刻威胁着人类的生命健康。而重金属离子污染又是水污染的主要污染之一,因此建立快速、灵敏、便捷、准确的重金属离子检测传感器具有重要意义。本论文以碳量子点复合物和缔合多糖建立了荧光和电化学传感器,用于对重金属离子的检测。主要研究内容如下:1、以柠檬酸为碳源,尿素为氮源,一步水热
学位
不断增长的能源消耗促使研究人员对锂离子电池进行深入研究。钒基材料因其高的钒丰度和高的锂离子存储容量作为锂离子电池的潜在负极材料被广泛研究。特别是钒酸盐,锂插入时存在多步还原和更多的电子转移,会使电化学性能更优。离子液体具有稳定的性质和高分解温度(200-300℃),在制备无机纳米材料和特殊形貌的材料方面具有良好的应用前景。本论文选用离子液体作为绿色溶剂和模板剂制备了一系列钒酸钴负极材料,并探究了酸
学位
超级电容器和锂离子电池是目前主流的两大类电化学储能器件。超级电容器具有功率密度高、循环寿命长和安全性能好等优点,在大功率充放电设备中应用广泛;而锂离子电池的高能量密度则适用于能量密度饥渴型应用场景。近年来,过渡金属磷化物因其超高的理论容量和其固有的半金属性质所导致的高导电性,成为高性能超级电容器以及锂离子电池的优异电极材料,受到研究者的广泛关注。本文通过便捷、高效的一步固相合成法制备了碳包裹磷化镍
学位
水泵作为泵站工程中的关键设备,其合理选型是关系泵站安全、稳定运行的重要环节。为了确保泵站正常运行且能发挥相应的社会效益,避免出现大马拉小车及排水能力不足等问题,本文基于水泵工况点的确定原理,对水泵选型工作中存在的一些典型问题进行探讨。结果得出:单泵设计参数位于拟选水泵性能曲线图不同位置时水泵会出现不同工作状态及出现该状态的原因,以快速判定拟选水泵是否合适。本文内容可为水泵选型工作提供一定的参考。
期刊
直接甲醇燃料电池(direct methanol fuel cell,DMFC)结构简单且直接使用甲醇水溶液或蒸汽甲醇为燃料不需要重整氢发电的独特优势,具有低温快速启动、燃料洁净无污染、体积小易携带等优点,现已被广泛应用于通讯、电动汽车和便携智能设备等。DMFC的单体由膜电极、电池的阴极和阳极三部分构成,其中电池的两极催化剂是制约其进一步发展的关键所在。目前,贵金属铂(Pt)基材料是DMFC最广泛
学位
为了更加科学、精准地评估指挥控制人员的空战控制能力,采用眼动追踪技术,基于眼动、时间、准确率等指标建立了量化评估模型,并利用熵权-逼近理想解排序(technique for order preference by similarity to an ideal solution, TOPSIS)法对空战控制能力进行了综合评估。该模型以眼动指标作为重要评估依据,将客观赋权的熵权法与多属性决策TOPSI
期刊
我国改革开放初期的现代化探索,是中国式现代化承上启下的发展实践。它一方面发展了新中国成立以来以毛泽东同志为主要代表的中国共产党人的现代化理论和实践创新,另一方面启发了此后中国式现代化理论体系的提出、发展和逐步成熟。其间,我们党提出坚持党的领导是中国式现代化的政治前提,指向政治稳定的现实考量和中央主导的发展模式;坚持社会主义现代化的内在规定性,指向小康社会的实践目标和共同富裕的本质特征;坚持解放思想
期刊
随着越来越多新兴技术的不断涌现,如数据挖掘、信息检索、人工智能等,其快速发展带动了大规模的数据收集,并实现了经济与社会效益共赢。与此同时,用户每时每刻都在接触大量的信息数据,且第三方应用软件将会产生大量与用户相关的数据记录。因此,对大规模的数据进行处理与分析,并应用机器学习挖掘有效信息,是目前研究的热点问题。但这也间接导致了大量敏感信息的泄露,保护个人隐私信息安全或将面临更大的危机与挑战。k-me
学位