基于深度学习的实体关系联合抽取方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:zhonghuiling2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,在互联网上会产生越来越多的非结构化文本信息,在文本信息中隐藏着许多有价值的数据,为了从中获取这些重要数据,需要信息抽取技术的帮助。信息抽取可以从海量数据中抽取出结构化的信息,实体关系抽取是信息抽取的主要任务之一,是构建知识图谱、自动问答等自然语言处理任务的基础。因此,实体关系抽取具有重要的研究意义。传统流水线方法存在错误传播和不能有效抽取关系重叠的问题,会导致实体关系抽取模型总体精度不高。并且在现实世界中,文本通常是具有多元关系的,然而大多数现有的方法仅考虑了实体之间的二元关系,不能有效地处理多元关系。针对上述存在的问题,本文结合深度学习技术对实体关系联合抽取方法展开研究,具体工作内容如下:(1)针对传统流水线方法容易产生错误传播,忽略了两个子任务的内在联系和抽取重叠关系效果较差等问题,提出一种基于交互注意力与特征融合的实体关系联合抽取模型IBFMRel。为解决重叠三元组的问题,该模型采用多层指针网络标注方案,将实体关系联合抽取任务转化为两个相互关联的子任务。同时,设计一种交互注意力机制来实现头实体的语义特征和句子序列特征的融合;为了进一步丰富文本特征信息,将句子的浅层特征和深层特征进行融合;使用Bi LSTM有效地提取上下文相关的语义特征。将所提模型应用于NYT24和NYT29数据集,实验结果表明,所提模型抽取效果与主流方法相比性能有所提升。(2)针对现有方法不能有效处理多元关系,且汉语单字存在着歧义性和传统实体关系抽取模型鲁棒性差等问题,提出一种多元关系分解算法,将多元关系任务分解为多个二元关系任务进行抽取。在第3章模型IBFMRel的基础上,进一步提出实体关系联合抽取模型CA-IBFMRel,采用字向量和词向量的混合编码方式,以学习更加丰富的文本特征表示,通过对抗训练以提高模型的泛化能力。最后,将所提模型应用于Du IE2.0数据集,实验结果表明,无论二元关系抽取还是多元关系的抽取,均取得较好的实验效果。(3)为直观展示本文研究成果并便于将研究成果用于实践,基于IBFMRel和CAIBFMRel模型,结合前后端开发技术,设计并开发基于深度学习的实体及关系抽取系统。该系统能够抽取用户输入文本中的实体,并以关系图的方式展示文本中包含的关系,为用户提供了一个友好的、可交互的、可视化的实体关系联合抽取原型系统。
其他文献
身份识别在金融安全、安防等领域的重要性日益增加,而人脸识别由于其方便快捷、性价比高等优点在日程生活中得到了广泛的应用,也是近年来的研究热点之一。当今世界正在受到新冠肺炎疫情的冲击,人脸识别相较于指纹和身份证等身份识别方式,具有不需要接触特定传感器的特点,从而可以减少公共场所内的不必要接触,一定程度上减少了疫情传播的风险。由于新冠疫情的影响,佩戴口罩出行成为人们的生活准则,而口罩的遮挡使得采集到的人
学位
信息时代技术发展越来越快,数据量剧增,例如在工业生产领域,多晶硅及碳碳复合材料生产过程中涉及到的生产因素比较多,会产生大量的生产数据。如何充分利用数据挖掘技术对上述数据进行分析以提高实际生产效率是本项目的研究重点。聚类算法是数据挖掘中一种重要的数据分析手段,模糊C均值算法(Fuzzy CMeans,FCM)作为软聚类算法,主要采用隶属度确定样本所述类簇。FCM主要缺陷是需要人工设定类簇数目及初始聚
学位
精神分裂症是一种复杂且致残率高的慢性精神疾病,给患者及其家属带来沉重的负担。准确地诊断精神分裂症可以及时抑制患者病情发展并给予进一步治疗。目前,精神分裂症的诊断主要依赖于主治医师的经验以及相关量表,过程复杂且缺乏客观的标准,同时早期的精神分裂症患者并不会表现出明显的行为异常,这极大增加了精神分裂症的诊断难度。近年来脑影像学技术逐渐成熟,静息态功能磁共振成像(resting-state functi
学位
随着工业化进程的快速发展,人们的物质生活水平得到极大的提高,但同时也造成了有毒有害气排放和易燃易爆气体泄露等问题。由于人类对这些气体的感知能力有限,因此,需开发高性能的传感器实现对这些气体的有效检测。目前,金属氧化物半导体气体传感器由于生产成本低、制备简单、使用方便以及能够检测大量气体等优点,在气体检测领域得到了广泛应用。众所周知,对于金属氧化物气体传感器,其敏感材料对传感器的性能具有重要的影响,
学位
现代社会,脱发已经成为一个普遍的现象,毛囊移植是治疗脱发的最有效方法。然而,供体面积不足、移植密度低、成活率低等问题明显影响了治疗效果。此外,毛囊作为皮肤的重要组成部分,其再生对于皮肤再生也是非常必要的。毛囊组织工程的研究是解决上述问题的有效方法之一。生物三维(3D)打印技术能够同时沉积活细胞和生化分子(如生长因子)与生物材料支架在期望的位置,以模拟本地组织结构或创建一个特殊设计的3D微环境,近年
学位
虽然车牌检测技术已经日趋成熟,但雾霾环境下采集到的低质量图像会出现色彩及对比度等特征的衰减,降低了基于图像的车牌检测算法的准确度,这对诸如电子警察、自动驾驶等基于计算机视觉的智能化工具造成了极为不利的影响。目前针对雾霾条件下车牌检测的研究成果相对较少,因此通过研究提升雾霾条件下的车牌检测精度,对提高交通管制能力,提升不良环境下的道路安全性具有重要的实际意义。本文提出一种雾霾条件下的无锚框车牌检测算
学位
现如今,深度学习已经在很多的领域得到了广泛应用,并且深度学习已经变成了人工智能领域的关键,然而,较为先进的神经网络都需要庞大的数据集进行训练以及较长的训练周期,这就使得攻击者可以在训练集进行投毒攻击,从而破坏模型性能。因此,研究投毒攻击技术可以在提高攻击成功率同时增强其隐藏性,造成更大的威胁。投毒攻击是针对深层网络的一种对抗性攻击,投毒攻击中的后门攻击是一种不同类型的攻击,攻击者选择一个特定的触发
学位
视频水印技术将代表视频版权信息的水印不可感知地嵌入到视频作品中,在发生版权纠纷时,将其提取出来,用于认证作品版权,为视频版权的保护提供技术支撑。实用的视频水印技术要求水印兼备不可见性和鲁棒性,嵌入和提取水印的过程具有高效性。离散余弦变换(Discrete Cosine Transform,DCT)直流系数(称为DC系数)量化方法在空域中量化DC系数嵌入和提取水印,满足高效性要求,且对大多数攻击表现
学位
生态振兴是民族地区巩固脱贫攻坚成果、消除区域性发展不平衡不充分问题的重要途径。当前,民族地区在生产发展、生活提高、生态改善方面虽然取得了一定成效,但粗放型发展行为并未完全扭转,可持续发展的历史性、累积性、深层次问题尚未得到根本解决。必须从思想层面纠正民众认识偏差,强化思想与文化建设,培育“社会主义生态公民”;发挥生态禀赋优势,促进增长动力转换,实现产业与生态融合;构建“生态+”多元一体治理模式,推
期刊
声学场景分类可以通过分析处理来识别音频所描述的声学场景,是自然声学场景计算分析领域的重要技术,在智能设备、声音监控以及多媒体分析等领域的应用十分广泛。但是目前声学场景分类任务仍存在着分类准确度不高、泛化能力较弱等问题,基于此,本文开展了如下研究工作:(1)首先介绍了声学场景分类技术的研究价值及其国内外研究现状,梳理了声学场景分类的基本流程,并详细叙述了音频样本数据的特征提取,和常用分类模型在声学场
学位