基于深度学习的中文实体识别及关系抽取研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:steve0309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的快速发展,网络中的文本数据不断增加,这些文本中通常蕴含着丰富的有效信息可以供人们加以利用,但这些数据往往是非结构化或半结构化的,不能直接使用。为了从这些原始数据中获取结构化的、容易理解的、可直接使用的信息,信息抽取任务应运而生。命名实体识别和实体关系抽取作为信息抽取的两个基本子任务,对构建领域知识图谱、优化机器翻译和建立智能问答系统等具有重要的价值和意义。传统的实体识别和关系抽取研究大多基于规则、统计和机器学习等方法,这些方法对于灵活多变的现代文本数据往往并不适用,为了提高对文本数据实体识别和关系抽取的灵活性和准确性,本文基于深度学习框架和传统基础模型作了如下工作:(1)针对领域语料的特殊性,通过对数据集中每个字构成实体的概率统计特征进行研究,提出了融合注意力机制和统计特征的实体识别模型。实验结果表明,提出的模型在领域性语料数据集上表现出很好的适用性和有效性,相较于BiLSTM-AttentionCRF在召回率上有显著的提高,F值达到了85.41%。(2)针对Transformer模型在中文命名实体识别任务中出现的词向量信息损失、位置信息丢失和方向信息缺失的问题改进原模型结构,提出了一种基于Transformer编码器和BiLSTM的中文命名实体识别方法,对Embedding层和Position Encoding层数据信息在同维度上拼接,避免了词向量的损失和位置信息的丢失,同时引入RNN结构的BiLSTM网络层解决了方向信息缺失的问题,显著提升了模型效果。实验结果表明,该方法在MSRA数据集和唐卡数据集上的F1值分别达到了81.39%和88.35%,有效提升了中文命名实体识别的效果。(3)针对传统注意力机制计算关注范围过大和远程监督的噪声数据问题,提出了基于局部注意力机制和本地远程监督的关系抽取模型。局部注意力机制通过滑动窗口进行注意力计算缩小关注范围,同时基于本地数据建立知识库在一定程度上减少了输入数据中的噪声数据比例。该模型在唐卡数据集上F1值达到了53.07%,在百度数据集上F1值达到了81.49%。
其他文献
目的:探讨金属基质蛋白酶在肾脏缺血再灌注中的作用,明确人脐静脉来源的外泌体对肾脏缺血再灌注损伤的保护作用。方法:选取生长至对数期的HUVEC使用含10%血清的1640培养基培养,获得其上清液,将所获得的细胞上清液置于超速离心机离心管中,之后使用密度梯度离心法分离外泌体,经梯度离心后获得人脐静脉来源的外泌体,并且经过透射电镜,粒径分析及外泌体标志蛋白的蛋白免疫印迹法检测证明获得的外泌体可用于后续的实
学位
研究背景:骨质疏松症(osteoporosis,OP)是一种骨科较为常见的疾病,各种类型的骨质疏松中以绝经后骨质疏松占比较高。绝经后骨质疏松性骨折及骨质疏松性疼痛困扰着全世界的女性,但其发病机制尚不明确。研究发现,感觉神经和其分泌的肽类物质降钙素基因相关肽(Calcitonin gene related peptide,CGRP)同时具有参与痛觉调控和促进骨生成的作用。此外,5-羟色胺也在痛觉调控
学位
公路作为带动区域经济发展的重要基础设施之一,对国民经济的发展具有重要作用。随着国家对交通强国的大力推进,遥感技术被用于公路沿线的环境监测。遥感图像语义分割可以帮助工作人员更好地掌握该公路沿线的地物,帮助开展公路沿线环境的动态监测及其安全分析工作,对于对地观测、环境监测以及灾害预警具有重要作用。近年来,基于深度学习的图像语义分割方法能够高效、准确地获取到所需要的图像语义信息,具有巨大的实用价值。然而
学位
随着互联网时代的到来,各种社交和电商网络平台进入了人们的生活,人们在享受网络即时性、便捷性的同时,也在网络上产生了大量的评论性数据。这些包含大量观点的用户在线评论数据蕴含着丰富的科研价值和社会商业价值,对这些数据进行观点挖掘和情感分析已成为自然语言处理领域中热门的研究领域之一。在对这些用户在线评论数据进行观点挖掘和情感分析的过程中,由于用户在线评论数据文本篇幅短,针对性强,包含多个特定方面的情感极
学位
移动边缘计算(mobile edge computing,MEC)是一种新兴的计算范式,能够将计算、通信和存储设施扩展到接入网边缘。资源受限的终端设备可以通过MEC执行计算密集型和时延敏感型的计算任务,以满足其计算和时延需求。计算卸载是MEC的关键技术之一,现有文献对MEC的计算卸载进行了一系列充分的讨论。然而,由于MEC环境的资源约束、软硬件的异构性、终端设备的动态性和随机性,计算卸载的策略优化
学位
随着高速铁路的飞速发展和全面普及,保证列车的行车安全变得越来越重要。基于深度学习的机器视觉技术在目标检测领域不断取得新的成就,为铁路异物检测提供了重要的理论支持。现有的目标检测算法在铁路侵限异物检测任务中存在小目标检测精度不理想的问题,本文基于深度学习的目标检测算法展开以下几个方面的研究:(1)提出多尺度特征跳跃融合的SSD小目标检测算法。针对SSD算法对铁路侵限小目标的检测精度低的问题,提出高效
学位
目的:本研究旨在通过生物信息学方法,筛选与肝细胞癌(Hepatocellular carcinoma,HCC)预后有关的细胞焦亡相关长链非编码RNA(Pyroptosis-related long non-coding RNA,pylncRNA),从而构建预后模型。并进一步探索该模型在评估免疫细胞浸润和预测化疗药物敏感性等方面的应用价值。方法:从癌症基因组图谱(The Cancer Genome
学位
图像超分辨率任务主要是通过一系列硬件或软件技术方法来将某一幅图像失真退化后产生的模糊图像复原成清晰逼真的高分辨率图像的技术过程。这种图像超分辨率技术在国防安全,医学中的影像病情分析等领域具有广泛的应用价值,因此图像超分辨率重建问题也成为当下的研究热点。由于硬件层面开支较大,现有图像超分辨率重建方法主要是在软件层面上的应用较为广泛,随着社会和工业的进步,传统图像重建技术领域难以满足现代社会发展的需要
学位
目的:PICH是一种调控细胞有丝分裂的DNA解螺旋酶,其在胃癌生长过程中的作用与机制仍不明确,本研究旨在探究PICH对胃癌生长的影响及其潜在新机制。方法:利用生物信息技术分析PICH在胃癌组织中的表达水平及其潜在的功能,利用胃癌临床大样本免疫组织化学染色验证PICH在胃癌和癌旁组织中的表达水平,分析其与胃癌患者预后之间的关系。构建PICH敲除及过表达的SGC-7901和BGC-823胃癌细胞系,通
学位
研究目的胰腺癌(Pancreatic Ductal Adenocarcinoma,PDAC)作为消化系统中预后最差的疾病之一,由于缺少敏感性高、特异性好的诊断指标,并且早期无特异性临床表现,因此在发现是往往已达到晚期,即便进行化疗、放疗及手术治疗,其五年生存率依旧很低。溶血磷脂酰胆碱酰基转移酶4(Lysophosp hatidylcholine acyltransferase,LPCAT4)具有溶
学位