基于迭代式多层级远程监督的关系抽取技术的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:vovo10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
远程监督思想可将关系抽取任务扩展到包含上万种语义关系的大规模语料库上,因此基于远程监督的关系抽取技术已被广泛地应用到了从自然文本中识别新关系事实的任务中。但因为:(1)语义关系相近的实例容易被混淆;(2)不同语义关系间训练数据的不平衡会导致模型忽略对只有少量训练数据的关系的学习,所以只依赖单个节点的分类模型在同时区分成千上万种关系时,不可避免地会出现严重的分类错误问题。虽然前人为解决该问题做出了很多的努力,但到目前为止都没有取得令人满意的进展。本文创造性地提出了一种基于多层级远程监督的关系抽取模型,该模型通过建立一个树状的分类结构,将原始的单节点分类任务划分成多个不同层级上的子分类任务。根据构建的树状结构,一个未标注的关系实例将会从根节点开始一步步地被划分到某个叶子节点,且叶子节点划分的关系标签是该实例的最终标注结果。除此之外,我们提出了迭代式的远程监督算法,该算法利用新学习到的关系事实迭代式地更新分类模型,可以有效地提高抽取的精确率和召回率。在两个真实数据集上的实验结果表明,和以往方法相比,我们的方法提高了10%的抽取精确率。但迭代式关系抽取方法中存在一个很常见的问题,即语义漂移问题。在本文中,我们将引起语义漂移现象的实例或上下文模式定义为语义漂移点,并提出了通过识别语义漂移点最小化语义漂移现象的新方法。以往的方法都是在牺牲召回率的前提下提高清洗的精确率,但基于语义漂移点的消除方法不仅有效地清洗了大部分的语义漂移错误,而且保持着较高的召回率。实验结果证明,基于语义漂移点的清洗算法可以在精确率达到90+%的同时,清洗90%的错误实例或上下文模式,其清洗效果远优于以往的方法。
其他文献
本文首先采用苯乙烯(St)为辅助接枝单体,分别在三元乙丙橡胶(EPDM)和聚烯烃弹性体(POE)上熔融接枝甲基丙烯酸缩水甘油酯(GMA),考察了接枝单体GMA含量、引发剂DCP含量、反应温
新一轮科技和产业变革正在兴起,全球制造业竞争格局面临重大调整,世界各国都非常重视发展装备制造业,美国、欧盟等发达国家纷纷实施“再工业化”和“制造业回归”战略,中国也
综合调度问题的研究已经有完善的理论,但是理论研究和实际应用仍有差距,在实际的生产过程中,企业还需要结合产品的加工特点制定符合实际情况的调度方案。在实际的生产调度过
贝叶斯网络需基于故障树进行构造,在静态系统中,静态贝叶斯网络与静态故障树结合,拓展了故障树的求解方法,但只能描述静态失效行为,无法描述时序性、相关性、顺序性和冗余性
二氧化碳浓缩机制(CCM)是蓝细菌为了适应环境中二氧化碳浓度降低而进化出的高效的碳源固定系统,主要包括羧酶体、无机碳源转运系统和调节系统。当环境中无机碳源缺乏时,细胞
在过去几十年间,我国电信服务业先后实施政企分离、业务重组、民营化改革等措施进行市场化改革以优化市场环境,增强市场竞争活力。同时放开外方投资者在境内从事电信业务的出
水杨酸(salicylic acid,SA)是植物九大类激素之一,在植物抗病、种子萌发、气孔开闭、根瘤形成、DNA损伤修复以及叶片衰老等方面发挥了重要功能。水杨酸3-羟化酶(salicylic ac
证券分析师充当着信息“中转站”,其捕捉市场信息并综合利用投资学等多门学科评估标的股票投资价值,根据股票合理价格(目标价格)与当前实际价位差,提出相应的“买入”或“卖
本文旨在探讨货币政策与经济增长之间的关系,使用计量经济学方法来分析货币政策对经济增长的影响机理。首先,对所选取变量进行描述性分析。其次,使用横截面依赖性检验,坡度均
脱贫攻坚已经到了全面收官的决胜阶段,党的十九大对打赢脱贫攻坚战提出了明确要求:强调把脱贫作为全面建成小康社会的任务。明确要求后,扶贫方式改变,扶贫方式不再是粗放式的