基于实体类型信息的远监督关系抽取的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:diaolan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今这个大数据时代,网络每分每秒都会产生海量的信息,在这些网络信息中文本信息所占的比重很高。如何从数量庞大的异构文本信息中提取出主要信息一直是众多学者研究的热点问题之一。而关系抽取作为信息抽取的一个分支,可以检测、揭示文本中实体之间的语义关系,是解析异构文本的重要方法。按照训练数据的来源,关系抽取可分为有监督关系抽取、无监督关系抽取、半监督关系抽取和远监督关系抽取。其中远监督关系抽取因其无领域限制、适用于大规模数据集的特性备受研究者们的关注。现有远监督关系抽取方法主要存在如下三点缺陷:第一,远监督关系抽取在将知识库中的关系实例与自然语言文本进行对齐以获取大量训练数据时所使用的假设过于肯定,将很多噪声数据引入了数据集,影响了远监督关系抽取的效果。第二,远监督关系抽取需要人工设计语句特征,这些特征通常是通过自然语言处理工具提取出来的。在这个过程中,错误是不可避免的,而且这些错误会一直传递下去,限制了远监督关系抽取的性能。第三,现有方法缺乏与实体相关的背景知识作为补充说明,无法抽取出更多正确关系实例,也无法更好地避免错误预测,从而阻碍了远监督关系抽取效果的提升。针对以上三点缺陷,本文提出了基于实体类型信息的远监督关系抽取模型——PCNN+ET+ATT。该模型的关键在于将对实体有补充说明作用的实体类型信息同语句所蕴含的信息加以联合,另外还强化了实体之间词语对关系抽取的影响,使得关系抽取可以抽取出更多正确的关系实例,减少错误预测。本文使用词向量技术将语句、实体类型向量化,求得二者的加权和并作为模型的输入;然后为了降噪,使用了基于多实例学习思想的分包操作对输入进行分组;接着使用分段卷积神经网络自动学习语句和实体类型信息的特征,从而避免了使用自然语言处理工具提取特征时产生的错误传递问题;最后还引入了注意力机制,这使得模型在自动提取语句和实体类型信息的特征时更加智能,充分利用分包中所有有效数据的同时还能进一步降低噪声数据的影响。为了验证PCNN+ET+ATT模型的效果,本文设计了三组对照试验,采用两种测评方式,将新模型与多种经典远监督关系抽取模型进行对比。实验中PCNN+ET+ATT模型均表现良好,实现了较高的准确率和召回率。
其他文献
石油作为一种特殊商品.既有经济属性又有政治属性。国际石油价格历次暴涨都与政治因素有关。目前引起人们高度关注的并非石油的“经济价格”.而是“政治价格”。研究和把握石油
园林废弃物循环利用是一项系统工程,是由收集系统→加工生产系统→应用系统组成的一个循环链。而收集系统是循环链中最基础的一个环节,也是园林废弃物循环利用长效、持续进行
<正>随着经济发展和电子计算机的广泛应用,会计电算化已普遍应用于各企事业单位。会计电算化改变了财务会计信息处理、存储和传递的方式,进
综合实践活动课程作为国家必修课程,着眼于发展学生的综合实践能力、创新精神和探究能力。但目前该课程的实施现状并不理想,多数中小学对该课程重视不够,师资缺乏,课程资源开
滩涂湿地是重要的国土资源,围垦滩涂为解决沿海人多地少的矛盾,促进地方经济发展有着重要的意义。但是对滩涂的不科学开发,也会造成许多生态上的负面影响。滩涂湿地大规模围垦,底
赋予证人一定条件下的拒证权是现代刑事诉讼立法的潮流,也是人权保障理念的重要组成部分.针对我国在这方面立法欠缺的实际情况,本文通过分析有关证人拒证的立法例,设立证人拒
这是香樟经济学术圈在本刊推出的第6个推文专栏。香樟经济学术圈是目前重要的经济研究平台,由北京大学国家发展研究院郑世林副研究员发起,于2014年10月9日成立,该平台由一批
目前BOT是国内外供水、排水行业成熟的项目管理模式,水价及其调整模式是投资方获得合理收益的重要保障。目前通用调价公式中各指标权重的设置一般基于水价测算中的比重,这种
<正>随着2006年我国加入世贸组织,国际知名会计师事务所纷纷进入我国,对本就不甚发达的我国审计市场形成巨大的冲击。近年来,我国经济处于一个相对稳健的高增长态势中,企业对
鲤亚科是由原始的鲃亚科派生的一个单源群,因此,把鲤亚科各属筛选出的性状与纪亚科的相应性状比较,以确定其性质,即该性状为祖征,还是为离征。经比较,发现25项性状在鲤亚科的