基于深度学习的文本关系抽取研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:ganmaogaishilangren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取技术作为国内外自然语言处理和知识图谱系统构建工作过程中的一个重要环节,具有重要的理论意义和广阔的应用发展前景。近年来,随着互联网计算力的快速发展和数据资源量的飞速膨胀,自然语言处理的各个发展方向都开始受到了极大的重视和推动,对于自然语言处理中关系抽取的精确性和灵活性也渐渐有了更高的技术要求。目前主流的关系分类抽取的方法研究中,传统的基于统计学的机器学习方法,存在着诸如误差在模型中不断传播、过于依赖特征提取质量等问题。随着神经网络、知识图谱和各类深度学习模型的研究和发展,利用深度学习和神经网络的关系抽取研究方法越来越受到相关领域研究者的青睐。以此为基础,论文提出了基于注意力机制和有序神经元长短期记忆网络的深度学习关系抽取模型,根据关系抽取任务与句法结构特征和上下文语义特征相关的特点,将关系抽取问题转化为关系分类预测的任务,并通过引入外部资源库特征向量作为辅助特征提取,提取出深度词级特征向量,作为后续的神经网络中输入的一部分;此外,关于句法相应特征提取的方法是通过词向量嵌入,得到当前词的特征向量以及相对于实体对位置的嵌入向量。之后依次通过卷积神经网络抽取层和有序神经元长短期记忆网络层,得到深度的句法特征向量。模型将提取出的深度句法特征和词级特征合并,通过Softmax层最终得到关系分类的预测向量,其中元素得分最高项对应的是预测该实体对的结果。此外,论文还引入了数据增广的方法,扩充了数据集,以此来提升模型的泛化性与鲁棒性。论文在Sem Eval-2010 Task 8数据集的基础上进行了对于关系抽取任务的实验,并与目前基于传统机器学习的方法和比较主流的深度学习模型方法进行比较,结果表明论文中提出的关系抽取方法应用效果更好。
其他文献
近年来,利用蛋白质序列信息预测蛋白质相互作用(PPIs)的方法由于无需先验知识,且避免了传统生物实验方法耗时费力的弊端得到了广大的关注。如何对蛋白质序列进行有效地特征提取以及如何构建预测效果良好的机器学习分类器模型是目前基于序列预测蛋白质相互作用研究面临的最大问题。因此,本文从优化序列编码方法,改进分类模型的两个角度提出基于注意力机制的卷积神经网络模型,主要工作概括如下:(1)针对已有的联合三联体
面部表情识别是人脸研究的一个非常重要的模块,有广泛的应用场景,例如在智能安防场景下可以识别群体的情绪,来避免突发事件;在公安刑侦审讯过程中识别嫌疑人的微表情,来辅助办案人员判断其是否说谎;在网络授课过程中,通过摄像头捕捉学员的面部表情,来判断学生是否对授课内容存疑。但是仅仅是六种基础表情不足以描述复杂的人类情绪,针对这一问题,选择面部表情更为基础的单位——面部运动单元,而这些面部运动单元的组合可以
近年来,受益于深度卷积神经网络的成功,目标检测在准确性和效率上都取得了较大的进步。然而在算法的进步背后,海量的数据和注释必不可少。虽然通过相机或移动设备采集图像较为简单,但用于训练的目标注释需要在图像中确定目标的类别标签和边界框,人力成本较高。尤其是在需要专业知识或复杂的场景下,标注是难以获取的。尽管颇具挑战性,如何利用大规模未标注或部分标注数据减少标注成本并增强模型性能因其重要性正日益引起人们的
命名实体识别,指的是识别出待处理文本中指定类型的实体,这类命名实体具有特定的意义。在一般情况下,命名实体识别需要识别出的实体类型分为实体类、数字类和时间类这三大类,或进一步细分为人名、机构名、地名、时间、日期、货币和百分比这七小类。而在特定的领域中,会相应地定义领域内的各种实体类型。命名实体识别是自然语言处理中的一个基础性关键任务,为关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多自然语言处
深度神经网络是深度学习的一个重要模型,其往往拥有非常多的层次结构,包含输入层输出层和一系列的隐藏层。但是若只是单纯的添加更多的隐藏层,深度神经网络依然只是运算的简单线性组合,并不具有人工智能的真正意义。此时,激活函数的添加为神经网络添加了非线性的表达能力。随着集成电路的发展,越来越多的神经网络开始使用集成电路实现,而神经网络加速器实现过程中,激活函数往往是硬件实现中最昂贵且最难以实现的部分。本文针
近几年深度学习的蓬勃发展,基于深度学习的许多课题成为热点研究对象,模态识别问题作为其中热门课题之一,旨在通过单个或多个模态序列进行分类,进而学习不同模态对应的内容,最后输出为文本内容。这其中主要模态是听觉和视觉,目前双模态识别(听觉和视觉)由于数据集不够丰富、语言的多样性以及说话人习惯等限制仍处于发展状态。本文从模式识别的数学定义出发,将提出的问题进行数学建模,构建了双模态视听的架构,提出了一种新
当今时代存在着海量的以结构化或者半结构化形式存在的文本信息,隐藏着巨大的价值。因此,从海量的文本信息中提取有价值知识是一项十分重要的任务。信息抽取任务就是以此为目标而诞生的。论文研究信息抽取子任务之一的关系抽取任务。关系抽取,旨在从文本中自动检测和识别出实体之间具有的某种语义关系,是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景。论文的主要工作如下:1.将门控图神经网络
数十年来,不管是在心理学界还是模式识别界,人们都对面部表情进行了广泛的研究。目前更具挑战性的微表情识别研究也在兴起。微表情是指在人脸面部表现出微妙情感,它是一种快速而微弱的面部运动,人类几乎无法控制。尽管近年来人们对面部微表情的研究有了很大的进展,但在微表情识别方面仍有很大的改进空间。微表情分析在情感监控、犯罪侦查、心理治疗等许多领域都有应用。与传统表情识别相比,识别微表情更具有挑战性,因为微表情
气敏传感器能对易燃易爆、有毒有害气体等进行检测,在当今的生活和生产中有着广泛的应用。气敏传感器的性能主要由气敏材料决定,金属氧化物半导体材料具有良好的光电性能,并具有制备工艺简单、绿色环保等特点,目前已成为气敏传感材料领域研究的热点。ZnSnO3是一种三元金属氧化物半导体材料,不仅具有气敏性能,还具有UV光电性能。但ZnSnO3作为气敏材料,具有工作温度高的缺点,需在200℃以上才能表现出良好的气
随着多媒体和显示技术的发展,3D视频技术逐渐成为视频领域的研究热点。作为最常用的3D视频格式之一,多视点视频加深度(Multi-view Video plus Depth,MVD)格式通过增加深度视频和视点数量等方式为观众提供沉浸式视觉体验。如何在码率受限的条件下对深度视频进行高效编码,成为MVD视频需要解决的关键问题之一。深度视频的内容特性与彩色视频存在较大差异,针对彩色视频提出的方法在深度视频