基于深度学习的中文实体关系抽取研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:axyyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术不断发展和海量数据不断涌现,如何从海量非结构化数据中提取有用的结构化信息成为现阶段的研究热点,关系抽取应运而生。关系抽取作为上游提供基础数据的技术,在下游诸多领域都具有重要的应用价值,如知识图谱、语义理解、推荐检索、机器翻译和智能问答等。近几年,深度学习模型已经成为关系抽取的最先进方法,现有的工作也取得了相当大的成果,但还存在实体嵌套、关系重叠、暴露偏差等问题,严重影响了关系抽取模型的精度,本文从解决上述问题的角度出发,提出了两种实体关系联合抽取模型,主要工作内容包括如下几个方面:1.针对现有实体关系抽取方法中存在的实体嵌套问题,区别于原有基于词元(Token)进行关系抽取的思路,采用基于片段(Span)的思路进行关系抽取,并且设计和使用滑动窗口和三种映射策略将词元序列进行组合排列重新平铺成片段序列。2.针对现有实体关系抽取方法中存在的暴露偏差和关系重叠等问题,提出了一种基于片段多头选择的实体关系联合抽取方法(Span based Multi Head Selection,SMHS),将实体关系抽取转化为片段级的多头关系选择问题。首先通过片段标记器、片段嵌入的方式构造片段语义向量,结合所提出的片段映射策略将原本的词元序列转化为片段序列,然后利用LSTM、多头自注意力机制进行片段特征提取,最后使用多头选择机制进行片段级关系解码且引入片段分类任务辅助训练,单步解码出关系三元组。3.针对SMHS时间复杂度较大,推理速度较慢,提出了一种基于片段标注的实体关系联合抽取模型(Span-Labeling Based Model,SLM),将实体关系抽取问题转化为片段标注问题。首先同样地通过将词元向量转化为片段语义向量,结合片段映射策略将词元序列转化为片段序列,然后利用GRU、多头自注意力机制进行片段特征抽取,最后利用精心设计的片段关系标签进行关系标签分类,单步解码出关系三元组。4.基于权威中文关系抽取数据集Du IE2.0进行实验,且重新对数据集的标注形式进行修改。为验证模型性能,选取了当前主流的关系抽取模型进行对比实验;为验证所提出模块的有效性,进行消融实验;为探究模型参数对模型的影响,进行影响因素实验。实验表明,本文所提出的两个模型取得了比当前主流抽取方法更好的效果;所提出模块对模型性能确有提升作用;确定了相关参数对模型的潜在影响,验证了模型的有效性和优越性。两个模型比较而言,SMHS的精度较SLM高,但SLM在时间空间复杂度和推理速度方面占据优势。
其他文献
随着网络技术与智能终端设备的快速发展,具有移动性的群智感知作为一个新的众包模式也随之得到广泛关注。相比于传统众包,群智感知对时空有一定要求,可以通过特定时空的人获取特定时空的感知数据,即工人需要特定时间移动到特定位置执行并完成感知任务。在群智感知中,任务分配问题已经成为群智感知主要研究内容,合理的任务分配可以保证感知系统的发展。当前研究成果存在以下局限性,出现人手不足问题,导致任务完成情况存在不理
学位
深度学习为各领域提供了巨大的发展空间,同时也带来了潜在的隐私威胁,用于人脸检测和训练深度学习模型的人脸图像面临着身份泄露的威胁,人脸图像的身份隐私保护成为重要的研究课题。目前人脸身份去识别算法生成的图像面部结构完整、人脸自然,但仍然存在表情、肤色等属性破坏,保护模型安全性不足的问题。对此,本文展开了以下研究工作:(1)提出了一种强面部特征分析算法。根据人脸识别技术的特点,利用欧氏距离(Euclid
学位
随着工业化的发展,不可再生能源如化石燃料逐渐消耗,并且环境污染愈发加重,人们对太阳能这种绿色、清洁、总量巨大的能源的利用愈发增多。光充电超级电容器是一种一体化器件,它将太阳能电池和超级电容器集成为一体。这样的器件可以提高光伏器件对太阳能的利用效果,及时将转化得到的电能储存到储能器件中。相比传统的用导线将光伏器件与储能器件连接的方式,光充电超级电容器可以减少器件内阻,缩小器件体积。本篇论文使用量子点
学位
近几十年来,随着能源短缺问题越来越严重和日益增加的可移动电子设备,关于自供电、可持续的绿色能源研究迫在眉睫。近年来,收集日常生活中浪费掉的随机机械能并转化为电能成为目前研究的主要方向。TENG是一种能够将周围环境中的各种机械能转化为电能的新型能量收集装置,因其在能量收集的高效性、低成本和自供电传感方面的优势,使其得到了迅猛的发展。TENG的接触分离模式由于具有设计简单、高瞬时输出功率、容易实现多层
学位
本项研究采用电沉积技术,以铜锡合金替代铜或镍作为中间层成功在铝基体表面制备锡镀层,并以电流密度为工艺条件,分析铜锡合金镀层与锡镀层在不同电流密度下的形貌及性能变化。利用扫描电子显微镜(SEM)、激光共聚焦、硬度仪、能谱仪、微纳米力学综合测试系统、X射线衍射仪(XRD)、电化学工作站以及盐雾试验箱对铜锡合金镀层及锡镀层的表面形貌与物相组成进行表征,并对镀层的硬度、耐磨性、耐腐蚀性进行性能测试。铜锡合
学位
肺结节的检测是肺计算机辅助检测(CAD)系统的关键组成部分。针对带医生标注的数据不足及肺结节检测过程中存在的误检、漏检的问题,使用深度学习的方法,构建了一个新的基于数据增强和注意力机制的肺结节检测模型。深度学习在肺CAD系统中的应用需要大量带标注的数据用于模型的训练,但由于人工标注成本昂贵、费时费力,且需要医生的专业背景知识,导致带准确标注的数据数量非常有限。一方面,针对上述问题,提出使用CT-G
学位
群体智能优化算法是一种模拟自然界生物和非生物群体行为的随机搜索算法,由于其适用于高度复杂的非线性问题,因而得到了广泛的应用,在解决复杂的单目标系统优化问题中的优势已经得到了充分的体现。然而,现实世界中的优化问题往往是多属性的,通常是针对多个目标同时进行的,在大多数情况下,同时进行优化的多个目标相互影响、相互冲突。为了实现总目标的最优化,往往需要以综合的方式考虑相互冲突的子目标,也就是说,在各个子目
学位
计算机断层扫描(Computed Tomography,CT)技术是用于早期诊断癌症的关键手段。肺部计算机辅助诊断(Computer Aided Detection,CAD)系统集成机器学习和医学图像处理等方法,旨在从CT上快速、准确地检测结节并识别肺结节的良恶性,从而提供高效的辅助诊疗方案。许多机器学习算法被应用于肺CAD系统中,主要分为两大类:其一为传统机器学习方法,其二为深度学习。传统机器学
学位
近年来,深度学习技术得到快速发展,计算机视觉与农业领域结合引起学者们的广泛关注。神经网络在复杂场景下对农业图像的识别成为一个热门研究课题。如今在农业的发展中,杂草和害虫对农作物的产量和质量影响依旧巨大,致使农业发展缓慢。因此,快速且准确识别杂草叶片数目和害虫更有利于解决上述问题,对农业领域其他相关研究有着良好的应用价值。本文分析了深度学习技术及其在农业领域应用的研究现状,结合不同的农业领域图像,以
学位
指静脉识别技术是指使用近红外光源照射手指,利用手指静脉血管中的血红蛋白吸收近红外光的特性,使得采集到的手指图像呈现出背景与静脉区域的明暗差异,通过相关的识别方法提取图像暗部的指静脉特征来实现个人身份的识别,其作为第二代生物特征识别技术,具备高准确性和高安全性等优势。本文中,我们将残差注意力机制引入指静脉识别研究,提出了一种新的多尺度多阶段的残差注意力网络(Multi-scale and Multi
学位