基于句法分析的关系分类和关系抽取方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yinlangui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人类社会进入大数据时代。知识图谱能连接相关数据并建立关系网络,为影视、医疗等行业提供有力支持。关系分类与关系抽取是构建知识图谱的关键技术,深入研究具有重要意义。关系分类旨在实体已知的情况下,预测实体之间的关系类别。关系抽取旨在实体未知的情况下,抽取文本中的关系三元组。句法分析捕获词汇间的依存关系,包含句法结构与句法依赖。使用句法分析技术能显著提升关系分类与关系抽取任务的效果。本文从句法分析的角度出发,对上述任务展开研究,主要研究内容如下:(1)在关系分类任务中,主流方法学习句法分析树的拓扑结构,丰富节点的语义信息。但是忽略了实体对、最近公共祖先节点所在子树的句法结构,导致未充分使用句法信息。此外,现有方法仅使用实体词汇进行关系分类,忽略了其他词汇的贡献,导致语义信息提取不完整。因此,本文提出了基于句法结构和关系指示词嵌入的关系分类模型。首先,通过预处理文本,获得分词结果以及句法分析树,利用统计方法获得关系指示词,增加其他词汇的贡献。然后,利用图同构网络提取句法分析树的句法结构特征,充分利用句法结构信息。其次,结合句法结构特征和关系指示词进行关系分类。最后,在DuIE数据集与SanWen数据集上进行实验,较基线模型F1分数分别提升3.72%与2.08%,验证了句法结构与关系指示词对于关系分类任务的有效性。(2)在关系抽取任务中,大多数方法仅对句法分析树编码,忽略了词汇间的主谓、动宾等句法依赖,导致句法信息丢失。此外,句法分析树中存在噪声信息,会对关系抽取造成负面影响。因此,本文提出了基于BERT预训练模型和句法依赖的关系抽取模型。首先,使用BERT预训练模型获得词嵌入,丰富词汇的语义信息。然后,在不同语境下,利用键值记忆网络学习句法依赖,提取更加丰富的句法信息,增强词嵌入的表达能力;同时,识别句法分析树中的噪声,降低噪声的影响。其次,使用LSTM对特征进行编码、解码,抽取关系三元组。最后,在WebNLG数据集与DuIE数据集上进行实验,较基线模型F1分数分别提升2.3%与4.4%,显示了该模型在关系抽取任务中的优越性。(3)自动化知识图谱构建系统能够对不同领域的知识图谱构建提供支持,降低人工成本。本文结合相关技术,设计了一个自动化知识图谱构建系统,并将提出的关系分类、关系抽取算法应用于知识图谱自顶向下构建过程。
其他文献
随着智能设备和无线网络等基础设施的普及,时空众包任务越来越多的出现在平时的生活中(例如,滴滴、美团以及优步等)。时空众包任务的研究也越来越得到学术界的重视。其中,时空众包任务的任务分配成为了研究的重点。传统研究方法通过匹配的方式进行任务的分配,大多缺少考虑到动态的环境。此外,大多数的推荐方法是针对职业性的时空众包任务工作者,注重考虑时空众包任务分配的效率和利益收入,较少考虑到工作者本身的兴趣与爱好
学位
人体的各个脑区并不是相互独立的,不同脑区之间存在某种联系,在脑电数据集上,体现为脑电通道间是相互依赖、相互影响的,即图数据中边的信息。因此脑电数据集需要被扩展为图数据,使网络可以提取到图数据节点之间的结构信息,这符合图卷积神经网络的观点。目前,针对图卷积模型,存在节点间关系挖掘的不够充分,挖掘出的均只含有一种信息,并不能充分表达节点间关系,以及模型迁移学习能力不强的问题。基于以上问题,本文主要进行
学位
随着教育事业和数字技术的蓬勃发展,高校内大量数据开始以电子形式进行存储。为了有效利用这些数据,辅助教学工作的展开,越来越多的高校开始研究教育数据挖掘。教育数据挖掘是从大量有噪声、不完整的校园数据中提取有价值的信息,如贫困生与普通学生的差异性,学生成绩与学生行为的相关性,学生的选课趋势,教师教学风格对教学质量的影响等。因此,教育数据挖掘是当前教育领域的研究重点。教育数据挖掘领域有许多研究方向,学生成
学位
随着科技的发展,移动摄像设备逐渐普及,翻拍泄密事件层出不穷,已有的数字水印技术能够有效解决多媒体数据版权保护等问题,但如何设计出能抵抗屏摄攻击的数字水印算法依然是个难题。传统的数字水印算法可以有效抵抗常见的攻击类型,如JPEG压缩、裁剪攻击等,但因为屏摄攻击是个复杂的过程,对于抗屏摄攻击的数字水印算法研究较少。为了解决这个问题,基于卷积神经网络(Convolutional NeuralNetwor
学位
睡眠是人类的生命本能,但是随着社会压力的增大,越来越多人面临着睡眠障碍的困扰。睡眠分期作为睡眠质量评估和障碍诊断的基础,在相关领域研究中占据重要地位。脑电信号记录睡眠期间的大脑活动具有高准确性,是睡眠阶段判读中的主要评判依据,被广泛应用于临床和科研中。然而现有的脑电睡眠分期方法更多基于特征工程或者深度学习框架,主要关注大脑局部信息而忽略了通道之间及脑区之间的信息交互,忽略了脑电信号固有的“图”属性
学位
网约车系统(Online Car-Hailing System,OCS)是城市交通的重要组成部分,随着汽车保有量的快速增多,在城市运营网约车会遇到交通拥堵问题。预测交通流指导网约车进行路径选择,对缓解城市交通拥堵具有现实意义。本文针对交通流预测与网约车路径选择展开研究。目前在交通流预测领域多采用深度学习方法,并且通常只考虑少数交通流影响因素,通过综合考虑多种交通流特征预测交通流能有效提高预测精度;
学位
在中国,每年有数以万计的人确诊听觉障碍,助听器可以有效地帮助康复治疗。大多数助听器放大有效声音的同时,也会放大环境噪声,影响体验。通过采集听者脑电信号,使用听觉注意力检测方法获取听者关注的声音并进行放大,是提升患者体验的有效手段,但是该方法通常要求听者高度集中注意力而难以推广应用。为解决该问题,本文试图通过听者脑电信号识别说话人身份,以此降低对听者要求。目前关于听者脑电信号的说话人身份识别研究非常
学位
网络编码在无线传感器网络数据采集中的研究与应用是目前较为热门的课题,其能够通过编码的方式提高灾难场景下数据的可靠性。在传统的编码采集方式中,一般利用节点采集的数据互相进行交叉式编码。然而,针对只有在达到某种特定触发条件后才开始进行数据采集的触发式数据场景,这种交叉式编码由于无法产生足够的数据,难以保证数据的可靠性。而且,传统交叉编码进行区域聚集收集时需要较高的收集与解码开销。针对上述存在的问题,本
学位
学位
艺术肖像画生成是指让计算机根据给定的人脸图像生成风格化的画像,其在公共安全与数字娱乐领域具有独特的应用价值。近年来,研究人员提出了各种基于生成对抗网络的艺术肖像画生成方法,并取得了令人瞩目的进展。但是,现有的方法在艺术肖像画的细节纹理生成、几何结构保留等方面仍然面临着很大的挑战。为此,本文提出了一种基于人脸语义正则化约束的肖像画生成算法,并将其应用于素描和钢笔画。然后,本文提出了一种基于非对称循环
学位