基于深度学习的实体识别和关系抽取方法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hyp88_down
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,信息抽取技术成为从海量非结构化文本中获取关键信息的重要手段。同时,近年来,深度学习方法在自然语言处理研究领域获得了广泛关注,在大数据环境下它可以高效地辅助信息抽取技术达成目标。然而,在大部分特定领域(例如医疗领域、生物领域等)中,应用深度学习方法实现信息抽取任务时面临着标注数据稀疏、模型泛化效果差的困境,如何在训练数据不足的情况下缓解这种困境成为当前的一个研究热点。因此,本文主要从命名实体识别和关系抽取两个角度研究了在少量标注数据环境下,应用深度学习方法进行信息抽取的解决方案。基于以上问题和解决目标,本文完成的工作内容包括以下四个方面。首先,针对中文命名实体识别任务,一方面,设计了基于统计的新词发现算法和基于word2vec算法的新词过滤策略,以充分挖掘领域内的专有词汇。另一方面,本文提出了一种新的基于深度学习方法的命名实体识别算法,应用新词发现算法的结果将分词信息集成到双向长短期记忆网络的网格单元中,并引入注意力机制自动关注重要特征,以提高命名实体识别算法在中文领域内的准确率。其次,为了实现在减少数据标注量的前提下,应用深度学习方法完成命名实体识别任务的目标,本文搭建了联合主动学习的命名实体识别框架。从更高效地利用训练集中有价值样本的角度出发,本文设计了命名实体识别算法的迭代训练流程,实现以低标注成本训练高性能模型的目的。然后,本文基于迁移学习的思想,借助领域(源域)标注数据缓解当前训练域(目标域)数据稀疏的问题,提出了基于多对抗生成式网络的关系抽取算法。以卷积神经网络为基础网络结构,利用领域自适应方法,在网络结构中添加多个对抗生成网络层和一个梯度反转层,利用判别器和生成器在实现源域和目标域特征对齐的同时,保证两个域类别之间的对齐。除此以外,在网络结构中引入了权重机制,以控制离群类和负样本产生的负迁移影响,有效地提高了关系抽取算法在训练数据不足情形下的准确率。最后,本文基于提出的命名实体识别和关系抽取算法,将其应用于信息抽取系统进行验证,使用该系统可以满足用户方便快捷的从非结构化文本中获得实体以及实体间的关系信息。本文对该系统的需求进行了全面的分析,基于此设计了系统方案和各个功能模块的详细实现方案,并按照设计方案对系统功能进行了实现。
其他文献
本试验旨在研究花生秧添加比例对肉兔颗粒饲料加工品质、生产性能和盲肠菌群的影响。试验采用单因素完全随机化设计,在消化能和蛋白质基本相近的情况下配置花生秧添加比例分别为0(对照组)、10%、12.5%、15%、17.5%和20%的6种全价配合饲料并制粒,测定颗粒饲料的加工品质。同时,选取(35±2)日龄、健康状况良好、体重相近的120只生长期肉兔(公母各占1/2),随机分为6组,每组4个重复,每个重复
对含氮杂环化合物合成方法的研究一直是有机合成领域的一个热点。然而,目前多数的合成方法往往依赖于过渡金属的参与来构建各种C-C键和C-N键。因此在绿色化学的背景下,广泛发展绿色、高效、无需金属参与的合成含氮杂环化合物的方法显得尤为必要。本文第一部分首先介绍了一种以亚硝酸叔丁酯为氮源,通过构筑氮氮键和氮硫键,合成一系列含氮杂环化合物的方法。其中包括1,2,3-苯并三嗪-4(3H)-酮,1,2,3-苯并
吉林省作为我国粮食主产区,素有黄金玉米带的美称,玉米秸秆资源丰富。目前,吉林省仍存在农民违法露天焚烧、丢弃秸秆现象,浪费资源又造成了环境的破坏。秸秆还田是一项促进秸秆有效利用的手段,对农户秸秆还田意愿进行研究能够推进秸秆还田技术的使用,促进农业可持续发展,从而达到吉林省保障农民家居温暖,环境清洁的总目标。本文在学习和把握循环农业经济理论、成本收益论和农户行为理论的基础上,利用草谷比法测算出吉林省2
富锂锰基正极材料Li1.2Ni0.13Co0.13Mn0.54O2的充放电比容量达到250~350m Ah/g,可以更容易达到锂离子电池应用于电动工具和新能源汽车等方面,为最有发展前景的新一代能源类锂
三坐标测量技术一直是控制产品质量的重要途径,随着信息技术与三坐标测量机的集成,企业对数字化检测工艺规划技术的需求不断扩大。为解决企业在三坐标测量过程中存在的检测工艺信息传递方式落后、采样策略缺乏柔性、路径规划效率不高等问题,设计了基于MBD的智能三坐标检测工艺规划系统,对智能检测工艺规划技术展开研究。主要研究内容如下:(1)针对检测信息传递方式落后的问题,研究了三坐标检测信息建模技术。将设计制造信
本试验旨在研究日粮添加不同水平的过瘤胃蛋氨酸(Rumen-protected methionine,RPMet)对辽宁绒山羊生产性能、主要营养物质消化率和血浆游离氨基酸组成的影响,并进一步研究其对血浆生长激素(GH)和类胰岛素生长因子(IGF-1)、皮肤毛囊发育和皮肤组织IGF-1及其受体基因m RNA表达量的影响,确定RPMet对辽宁绒山羊绒毛生长的作用效果及其调控作用。试验选用24只体况良好的
移动通信飞速发展的几十年间,见证了数以亿计的智能设备与信息对象的连接。大量数据密集型、个性化、多样化应用的涌现,给现有接入与前传网带来沉重压力。作为信息交互与网络服务供应的载体,基站在满足人们通信需求方面至关重要。最大限度地挖掘基站流量的有效信息,有助于实现资源的灵活分配与编排。然而,基站的业务请求存在时空动态与不确定性,使该时序问题的分析与预测成为难点。此外,第五代移动通信(5G)作为下一代蜂窝
蛋白质与小分子间的相互作用在生物体内普遍存在,蛋白质复合物的形成在生物过程中起关键的作用。研究小分子与靶蛋白之间的相互作用有助于从分子水平上揭示其作用机制,能够说
空间谱估计技术主要估计信号个数、估计信号来波方向(Direction of Arrival,DOA)两个方面,其中,大多数超分辨谱估计算法都是以正确估计信号个数为前提。如果信号个数估计有误,那么测向算法就会受到很大的影响。论文在空间色噪声背景下,信噪比较低和快拍数较小时,对独立信号和相干信号的估计算法性能下降问题进行深入研究。论文介绍了均匀线阵(Uniform Linear Array,ULA)信
当下,我国经济发展取得了举世瞩目的成就,成为全球第二大经济体,制造业规模居世界第一位。但是我国制造业的国际竞争力较弱,在全球价值链中的地位较低,面临着一种“大而不强”的困境。随着资源环境约束的加强,人口老龄化等社会现象显露,我国制造业以往依靠人口红利产生的比较优势逐渐丧失,制造业的出口竞争优势开始下滑,因此,我国必须重视这一问题,探索如何能够提升制造业企业的出口竞争优势,增强国际竞争力。生产性服务