基于改进语义假设的远程监督深度实体关系提取方法的研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:xianwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系提取是信息抽取领域的重要技术之一,它旨在以三元组的形式抽取句子中已标注的实体对之间的关系,有助于后续构建知识图谱等任务。同时,实体关系提取在篇章理解和机器翻译等方面都有重要的应用。然而,传统有监督实体关系提取方法需要大量的人工标注数据集以使模型得到充分的训练,而人工标注工作不仅费时费力,还需要标注人员具有一定的专业领域知识,使得标注工作进展十分困难。传统远程监督方法虽然能自动地扩张数据集,但是数据集往往充满噪音,影响模型的训练。深度学习技术的兴起与成熟为自然语言处理领域的发展带来了新的可能。当前,词嵌入和神经网络等深度学习方法在本文的特征抽取上有显著的效果,许多学者开始从深度学习的角度对实体关系提取任务进行建模。如何使用深度学习解决远程监督方法中的噪音问题是一个亟待解决的研究难点。本文对原始远程监督方法中的假设予以改进,并设计了相关深度学习框架进行实体关系提取。具体地,本文工作主要分文以下三个部分:首先,本文针对传统远程监督实体关系中假设可能带来的问题,提出了基于语义的改进假设,从句子语义信息的角度来考虑关系标签的生成,减少了原始假设可能引入扩充数据集的错误标注和漏标注问题。其次,本文根据改进语义假设提出了基于聚类的远程监督实体关系提取方法ClusteredDS(ClusteredDistant Supervision),对句子的语义信息进行聚类并重新标注句子的关系标签,旨在提高数据集的整体质量。最后,本文从神经网络的角度来实现改进语义假设的机理,提出了 Bi-GRU+Clustered DS(Bi-directional Gated Recurrent Unit + Clustered Distant Supervision)远程监督方法。该方法使用Bi-GRU网络提取句子的语义信息,通过句子的语义靠近,使用数据集的语义中心来影响每个句子的最终语义编码。在通过Freebase知识库与纽约时报数据集对齐而产生的数据集上的实验结果表明,本文提出的Clustered DS方法有效地提高了数据集的质量,能够缓解实体关系提取方法在噪音忍耐度上的压力。进一步实验也表明本文提出的Bi-GRU+ClusteredDS方法有效地避免了传统非神经网络方法中的误差,从深度学习的角度构建了基于改进假设的实体关系提取方法,在准确率和召回率上表现优异。
其他文献
作为一种极富地域特色的乐种,广东音乐从19世纪下半叶发展至今,在严老烈、吕文成等老一辈音乐家的努力下,整理和创作了不少经典的传统乐曲。尤其是在吕文成的积极发展下,广东音乐
大学生性越轨现象已成为目前高校思想政治工作中的难点,根据对此情况的调查,就其现状、特点、成因进行了分析,提出了教育对策。
就教学风格而言,每位教师都有自己的个性和特长。同样的音乐课不同的老师上会出现不同的风格和效果。因为每个人的思维方式和技术特长不一样,所以备课思路和上课表现也就不可能
习近平总书记指出,“做好党的新闻舆论工作,营造良好的舆论环境,是治国理政、定国安邦的大事”.林业宣传工作既是党的新闻舆论工作的重要组成部分,又是推进林业改革发展的重
以家庭生命周期为视角,对家庭效用最大化的消费投资决策进行跨期研究。研究结论为:首先,通过引入家庭遗赠动机和死亡概率来完成Epstein-Zin消费投资效用模型的构建;其次,通过
《淮南子·天文训》“和”、“穆”一段文字有“比”,它是中国古代特指十二律吕相生关系的专业术语,这可从中国传统琴学理论中找到证据,也可从《淮南子·览冥训》中找到
通过家庭赡养结构引入附带人力资本的世代交叠模型以探究寿命延长、赡养结构、劳动强度等因素对个人退休决策的影响。模型中强调中国等亚洲文化独有的"双向利他性",即考虑家庭
初中生物科学的教育对象是面向全体学生的.目的是提高所有中学生的生物科学素养和对生物学科的兴趣。随着新课程改革的不断变化,生物教学也要一改以前的被动、盲目的课堂教学模
本项目将采用2005年通过国家林业局保护的“紫娟”与“云茶1号”茶树品种,均由云南省农业科学院茶叶研究所选育。“紫娟”属小乔木型,嫩梢的芽、叶、茎都为紫色,平均每公顷产
教学改革就是要改变落后的教学方式,以适应当今培养高素质人才的需要。新课改背景下,作为教师,我们不能不思考:怎样向45分钟要效率?怎样寓教于乐?作者根据多年课堂教学经验,就课