基于RoBERTa和知识表示的中文实体关系抽取方法研究

来源 :东北石油大学 | 被引量 : 0次 | 上传用户:smuwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的发展,大规模的中文实体关系抽取数据集日趋完善,实体关系抽取技术也受到越来越多的关注。关系抽取在自然语言处理中是一项重要的工作,它能够有效地从非结构化的文本中提取出结构化的三元组信息,并将其应用于实际的信息检索、知识图谱和问答系统等场景。但是当前中文实体关系技术面对存在实体嵌套、一对多和关系重叠等文本特点的数据集时,模型的抽取性能还是较难提升。另一方面,大规模的中文数据集较少,部分数据质量不高,且存在数据不均衡问题。针对以上问题,本文围绕基于预训练语言模型的实体关系抽取模型展开了研究,调研了国内外现有的实体关系抽取技术,整理并分析其中优缺点,结合RoBERTa-wwm-ext预训练语言模型,提出了两种解决以上问题的中文模式约束的实体关系抽取方法。首先,利用数据增强的方法,解决了数据集中语料不平衡的问题。由于Du IE2.0数据集中百度贴吧数据相对百度百科和百度信息流的数据占比较小,所以使用网络爬虫技术爬取百度贴吧口语化语句,并使用机器翻译的方法进行“回译”,以此来扩充现有数据集。最后,在数据增强前后的数据集上分别进行实验。实验结果表明对原数据增强后,模型的F1值也有了一定的提升,从而证明了数据增强的方法对于模型性能的提升有一定的帮助。同时,在此基础上本文提出了一种先进行实体识别后关系分类的层次抽取方法。在第一个阶段,为了更好地解决同一个字在不用语句中的不用语义信息问题,选择RoBERTa-wwm-ext预训练语言模型训练了动态的词向量,从而增强字的语义特征。在模型的解码层使用全局指针的归一化思想,将实体的首部和尾部视为一个整体进行识别,减缓实体嵌套带给模型抽取性能的影响。在第二个阶段,将上一阶段预测得到的实体数据作为先验信息与原始文本相结合,并将其输入到卷积模型中。在进行数据增强后的Du IE2.0数据集中,模型的实体识别和关系分类实验的F1值均显著高于基准模型。最后,本文建立了一个以RoBERTa预训练模型为基底的融合知识表示的联合抽取模型,解决了基于流水线模型存在的误差传递问题。抽取策略采用先抽取句子的一个主体,并把主体传入下一个模块中帮助识别另一个客体与关系类型,以解决实体嵌套的问题。最后在关系预测模块,融入一种基于知识表示的Trans E表示学习方法,并由此获得了实体之间可能存在的关联信息。最终模型在数据集上的F1值表现比基准模型提高了2%至3%。
其他文献
数学核心素养的培养需要教与学方式的真正改变,而对知识特性的理解与教学方式的改变是课堂重构及理解性学习的关键。大概念是被抽象、概括出来的具有联系、整合作用并能被广泛迁移的核心知识。度量作为小学数学的大概念之一,具有统摄数的认识和数的运算等知识的作用。度量视角下的“数的认识”的核心是计数单位,且度量视角下的整数、小数及分数四则运算的算理具有高度的一致性。以度量为核心,可以将数的认识、数的运算等统一起来
“金属的化学性质”是初高中化学学习的重要内容,该部分内容涉及到重要的化学观念和化学学科核心素养,如元素观、转化观、微粒观、STS观,以及宏观辨识与微观探析、证据推理与模型认知素养。但是初三学生认知水平受限,在教学中不能深入电子转移的微观角度,不能充分认知模型、应用模型。为弥补这一问题,本研究基于化学学科核心素养,进行“金属的化学性质”的初高中衔接教学研究。
低温等离子体改性技术是一种常用的材料改性手段,它是通过电离气体产生大量的带能粒子和各种形式的光辐射作用于材料表面,从而提高材料的疏水性、阻燃性和抗菌性等性能,达到制备具有一种或多种特定功能材料的目的。低温等离子体改性技术在材料改性中备受青睐得益于四大优势:(1)反应环境所需温度低;(2)处理效率高;(3)适用范围广;(4)不会破坏材料本身的性质。近年来,低温等离子体改性技术在生物质材料、高分子材料
<正>《国家职业教育改革实施方案》中指出,职业教育要“落实好立德树人根本任务,健全德技并修、工学结合的育人机制,完善评价机制,规范人才培养全过程”。职业教育与普通教育是两种不同教育类型,不同的教育类型需要不同的评价体系,职业教育不能照搬普通教育的评价机制。
期刊
<正>近年来,铁力市审计局把对政策、体制、制度、机制的研究作为审计的前置准备,把研究贯穿审计实施全过程,改变以往只注重揭露问题、简单提出建议的惯性思维,创新审计理念思路,系统深入研究和把握党中央、国务院和省委、省政府及市委、市政府决策部署的出台背景、战略意图、改革目标等根本性。方向性问题,不断提升审计工作的政治性和前瞻性,根据审计实践需要,强化审计理论研究,切实推动审计理论、
期刊
乡村博物馆是建设在传统村落里,以陈列传统农业生产工具、农民生活用品、民俗文化物品为主,反映乡村自然文化、历史民俗的文化类博物馆、展览馆。乡村博物馆是乡村生活场景的重要保存方式,是书写乡村记忆的重要方式。当前,随着城镇化程度日益加深,乡村逐渐消失,因此留住乡村记忆,建设乡村博物馆成为乡村文化保护与振兴的重要举措。本文将乡村博物馆视为记忆场所,想要探讨的核心问题是乡村博物馆如何建构人们关于乡村的集体记
<正>教学内容:苏教版《义务教育教科书·数学》六年级上册第3页。教学目标:1.通过观察、操作、想象等活动初步认识长方体和正方体的展开图,感受展开图的多样性,进一步加深对长方体和正方体的特征的认识。2.经历展开与折叠的活动过程,在活动中感知平面图形与立体图形之间的联系,发展空间观念和推理能力。3.在参与数学活动的过程中感受图形学习的价值,培养与他人合作的意识提高数学学习的兴趣和学好数学的自信心。
期刊
<正>为深入贯彻落实党中央决策部署,检察机关须立足法律监督机关的宪法定位,牢记职责使命,紧跟时代需求,坚持能动履职,以充分发挥检察公益诉讼制度功效。特别是如何积极、稳妥“拓展公益诉讼案件范围”,尤为需要检察机关以能动履职的思维,加强理论研究和实践探索,自觉推动检察公益诉讼制度的完善,更好促进依法行政、保护国家利益和社会公共利益,助推国家治理体系和治理能力现代化。
期刊
《国家职业教育改革实施方案》中指出,职业教育要“落实好立德树人根本任务,健全德技并修、工学结合的育人机制,完善评价机制,规范人才培养全过程”。职业教育与普通教育是两种不同教育类型,不同的教育类型需要不同的评价体系,职业教育不能照搬普通教育的评价机制。现有的职业教育评价体系存在哪些问题?如何建立更适合新时代职业人才成长规律的评价标准与实施路径?让职业教育评价与行业参与深度融合,学校应该起到什么样的作
期刊
新时期(1976—2021)以来,唐代隐逸文学的研究取得了丰硕成果,其研究成果主要表现在四方面:文化学研究、隐逸主题研究、文本研究以及创作主体研究。其中具有重要理论价值和方法论意义的是:学界善于用联系和发展的观点来考察唐代隐逸文学与文化学的多维关系,利用跨学科研究的新方法,从科举、园林、哲学、绘画等多个角度来研究唐代隐逸文学。与此同时,相关研究也存在隐逸的相关概念不明确、重外围因素而轻文学本质、对