基于深度学习的文本实体关系抽取技术研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:abcd494895936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前互联网蓬勃发展的时代,每天都会产生海量的文本数据。如何将这些非结构化的文本进行结构化表达,从中发掘出有价值的信息,已经成为时下自然语言处理领域的研究热点。经过广大学者的多年研究,目前较为有效的方法是构建知识图谱,而构建过程中的关键技术是实体关系抽取,其旨在从文本中识别出实体,并根据上下文语境确定实体之间的语义关系。此前基于统计学的方法,存在耗时费力且可移植性差等问题。近几年深度学习技术逐渐被应用到该任务中,虽然取得众多成果,但是仍存在一些局限性。比如,目前大多数方法使用的静态词向量,存在文本语义表征能力不足、无法表达一词多义等问题;基于流水线的实体关系抽取方法,存在错误传播和两个子任务关联性不足等问题。本文的主要研究工作如下:(1)阐述了实体关系抽取的研究背景及意义,对其国内外研究现状进行了综述,并归纳了现有方法的局限性与不足,对该任务的相关理论与技术进行总结。(2)针对静态词向量文本语义表征能力、无法表达一词多义等问题。分析了文本表示对模型效果的重要性,并对预训练语言模型进行研究,采用BERT生成隐含丰富语境信息的词向量。在Web NLG数据集上完成了实验,F1指标比ETL-Span模型提高了2.3%。(3)针对基于流水线的实体关系抽取方法存在的错误传播和两个子任务关联性不足的问题。提出了一个新的标注方案,并在此基础上通过参数共享的方式进行联合抽取,以提高两个子任务之间的交互性,实体关系抽取效果实现了提升。在数据集Du IE上完成了实验,F1指标比FETI模型提高了1.3%。本文的创新之处包括:(1)利用预训练语言模型BERT进行文本表示,基于指针网络构建了一个实体关系抽取模型。首先采用指针网络预测出句子中的实体和关系类型,然后将词向量、实体和关系类型输入到Bi GRU中进—步获取句子中隐含的语义特征,最后利用BERT输出的全局矩阵指导模型完成实体关系抽取。在公开的英文数据集Web NLG上进行实验,所提模型F1指标为85.4%,精确率是87.2%,召回率达到83.7%,与ETL-Span、Order RL和Copymtl模型相比,综合指标F1值分别提升了2.3%、23.8%和29.0%。(2)构建了一个基于RoBERTa的实体关系联合抽取模型。提出了一个新的标注方案,将实体主宾语特征和实体类型信息融入到模型中,并通过参数共享的方式进行联合抽取。充分利用预训练语言模型Ro BERTa和神经网络Bi LSTM的优势,提高了模型的性能。在公开的中文数据集Du IE上进行了实验,F1指标达到77.1%,分别比与FETI、MHS和WDce模提升了1.3%、8.1%和18.4%,实验结果证明了所提模型的优势。
其他文献
随着互联网平台的迅速发展,服装线上市场的发展也得到了拓宽。线上服装市场凭借简单快捷、价格便宜的特点,吸引了一大批线上用户,用户足不出户就能够根据个人喜好进行挑选和搭配。用户可以如此便捷的进行线上服装购物,都是因为商家对大量的服装图片进行了人工分类上传,这其中需要消耗了巨大的人力成本。目前这样的问题都可以通过深度学习的相关算法得到改善,例如通过深度学习算法对繁多的服装类型进行自动识别并分类,以此降低
学位
在我国药品研发行业快速发展的背景下,医药研发外包(Contract Research Organization,CRO)行业逐步进入人们的投资视野,业界日益关注CRO行业中的公司估值问题。本文旨在通过梳理国内外企业价值评估的理论和方法,在剖析我国CRO行业发展现状、以及泰格医药所属细分领域、行业地位、业务财务、盈利模式等特点的基础上,筛选出适合泰格医药企业的现金流折现法和乘数法的联合估值技术,合理
学位
高光谱成像(Hyperspectral Imaging,HSI)能提供丰富的空间及光谱信息,能实现对成像目标精细的识别与分类,被广泛应用在土地覆盖检测、全球环境监测、资源管理、自然灾害监测、星际探测和医学诊断等领域。高光谱技术与显微镜技术结合生成的显微高光谱成像(Micro-hyperspectral Imaging,MHSI)技术,在医学领域具有重要的地位。本文在自主搭建的显微高光谱成像系统上,
学位
2018年,我国重点推进国有企业去杠杆政策,国有企业开始寻求各种方式来降杠杆。永续债附加了递延付息、延期赎回条款,在满足条件时可以计入所有者权益、降低资产负债率,成为热门融资方式。但是企业在续期永续债时,票面利率会上升,因此大多数企业在第一个定价周期结束后就选择赎回永续债,永续债的实质仍为债券。这就导致了企业降杠杆长期效应不稳定,隐含着财务风险。同时,部分企业由于信用状况恶化而续期永续债,导致融资
学位
我国的不良资产证券化业务始于2005年,且在2008年受到金融危机的深刻影响,故而暂停了信贷资产证券化业务试点。但在恢复后的数年中,商业银行信贷资产证券化的规模不断扩大。同时,基础资产的种类也在不断丰富。个人住房抵押贷款、企业贷款、个人汽车贷款和信用卡分期付款占主要地位,累计占92%。随着信用卡不良资产支持证券产品的不断丰富和完善,其面临的各类风险也不容忽视,尤其是需要对信用风险进行科学测度。本文
学位
人工智能技术的广泛应用与国家政策的大力支持加快了中医药数字化发展的步伐,中医药数字化发展既是民生之需,也是弘扬民族优秀文化之举。中医药知识图谱的构建、寻医问诊对话系统的搭建等任务是当下火热的研究方向,而上述任务能否顺利进行,能否高效运行,命名实体识别技术都发挥着举足轻重的作用。命名实体识别技术作为中医药数字化发展的基石,旨在从中医药文本中识别出关键实体,面临着诸多挑战。除了中文命名实体识别本身固有
学位
用户显式行为的稀疏性及行为模式的多语义性是当前困扰用户偏好学习的现实问题。为了解决这一问题,一类重要方法是通过引入辅助信息(例如用户/项目属性、用户间关系等)来弥补显示行为的稀疏性,并通过异质信息网络刻画和建模行为模式的多语义性。然而,为了学习用户偏好,现有基于异质图的推荐方法主要通过预定义的模式(如元路径等)捕捉异质节点之间的高阶连接,这极度依赖于相关的领域知识;其次,对于用户-项目间关联模式的
学位
随着我国证券市场的不断发展,可供投资的股票数量日益增加。在当今股票市场中,面对浩如烟海的投资标的,投资者难以凭借有限的时间和精力深入了解每一只股票。同时,随着市场有效性的增强,技术分析等传统投资方法的盈利能力在逐渐下降。投资者迫切地需要一种更全面、更精细的选股方法来指导投资实践,量化选股正是在这样的背景下逐渐被大众所认识,也有越来越多的模型被运用到量化选股的实践中。本文的主要研究目标是将多粒度级联
学位
随着公众、政府和投资者认识到气候变化的重要性,社会、经济和环境的可持续发展成为了社会各界的关注焦点,清洁能源产业也日益发展壮大。绿色债券是绿色金融理念的重要部分。我国近年来注重绿色债券市场的建设与发展。对于企业来说,绿色债券的发行可以扩大绿色企业的融资渠道,缓解绿色企业的融资压力。作为关系民生和日常生活的必要能源,电能的开发利用在世界能源紧张、气候变化等问题上具有重要意义。基于此,本文选取我国的龙
学位
新零售当前的发展竞争激烈,为了在短时间内获得资源,大企业多采用并购和直接入股的方式,连续并购趋势明显,苏宁易购也不例外。但是连续并购绩效多是采用普适性的方法进行研究,并未结合公司特点进行评价,因此本论文就以苏宁易购为例,结合公司连续并购动机和新零售业务来针对性进行连续并购绩效评价。基于此,本文探究苏宁易购为发展新零售连续收购天天快递、迪亚(中国)、万达百货以及家乐福中国四家公司的绩效。首先以协同效
学位