面向知识图谱的共指消解研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:xuefeng96ew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到一起的技术。共指消解方法包括基于规则、基于机器学习、基于深度学习的方法。目前共指消解方法存在以下问题:首先,大多数传统的共指消解模型采用句子本身的语法规则、句法结构或者是分类聚类方法,并没有应用文章中的深层语义;其次是传统的共指消解方法无法顾及到文档中上下文的全局知识和全局特征,会出现断章取义的情况;最后大多数共指消解模型只能应用于某一领域,泛化能力不强;除此之外,本文也尝试性的应用多种深度学习模型解决共指消解问题。针对以上问题,论文结合深度学习理论和自然语言处理技术,采用了基于端到端的共指消解方法,不仅能够最大限度的利用文章中的语义知识和先验知识,解决全局知识、全局特征囊括不足等问题,而且改进了共指消解的泛化能力,使模型效果提升,并且分析可改进的方法,提出四种优化方案,即加入全局特征、代词特征、加入动态词向量以及性能优化,分别从特征和计算成本上对模型进行优化。模型充分考虑文档中的局部特征和全局特征,构建精细、准确的共指链,通过参数讨论、多组实验探讨了特征添加以及计算性能优化对模型的影响。随后,通过改变模型结构,论文又提出基于transformer的端到端的共指消解模型,该模型将端到端的共指消解模型span的编码部分替换成transformer进行实验,通过实验证实该模型相比基线模型和目前的较为经典的共指消解模型,在效率和性能上均有所提高。
其他文献
随着移动互联网信息技术的普及和蓬勃发展,网络用户及其业务需求在数量和规模上呈现急剧上升的趋势,进而导致云平台中的组合服务也变得越来越复杂化和多样化,这对云平台中组合服务的调度方法提出了更高的要求。传统的云应用供应商以虚拟机为基础来部署应用程序的方式,愈发地不能满足企业和用户对服务的迫切需求。而容器作为一种新型虚拟化服务技术,相较于虚拟机而言,具有响应速度快、资源利用率高以及更易于部署和维护等诸多优
移动群智感知网络(Mobile Crowdsensing Network,MCSN)是一种新的数据获取模式,致力于为人们提供普适的物联网服务。合理的任务定价机制不仅能够激励更多的用户参与感知任务,还有助于平台的良性发展,因而,逐渐成为群智感知领域的研究热点。现有的研究大多是根据历史交易情况或者MCSN中的某种主体交互进行定价,均未考虑两者协同定价。此外,还普遍存在未充分分析任务定价规律、定价预测模
近几年的研究表明长链非编码RNA(Long non-coding RNA,lncRNA)具有丰富强大的生物学功能,在真核生物的基因表达调控过程中发挥重要的核心作用。相对于lncRNA在哺乳动物上的研究,其在植物上的研究起步相对较晚,目前如何从大量的转录本中准确地识别出lncRNA仍然是植物lncRNA研究领域的重要问题之一。本文新建了两个数据集,一个是植物lncRNA和mRNA的数据集,另一个是单
作为云计算的基础设施,数据中心通常运行着大量多种类型的服务,在不间断工作下存在不同程度的资源空闲,直接或间接造成了一定的资源浪费和能耗开销。论文从数据中心网络角度出发,以保障云用户的需求为前提,设计一种基于休眠唤醒的网络流调度方法,提高资源利用率,降低能耗。该方法有以下创新之处:1.提出解决数据中心网络能耗优化问题的通用框架。该框架针对现有能耗优化方案在优化过程中可能降低用户服务质量的问题,引入服
深度学习凭借神经网络对语义的深度理解能力在机器翻译领域取得长足的进步。然而对于低资源语言,一个难以攻克的问题是大规模双语语料的缺乏导致的数据稀疏,以致于译文质量不佳。常见的解决思路如无监督方法会带来额外噪声,影响学习效率。为此,本文采用一种半监督的对偶学习方法构建蒙汉神经机器翻译模型,在两个对偶任务中形成一套闭环反馈系统,从未标注的数据上获得反馈信息,进而利用该反馈提高对偶任务中两个机器翻译模型的
近年来基因相关的研究备受关注。临床医学和生物实验产生海量的生物数据,目前有很多数据库都记录了基因和疾病的本体数据,但大部分数据库专一性较强,无法有效根据不同基因的关联关系发现基因潜在信息。本课题融合多个基因相关的数据源,使用改进的随机游走算法,研究并开发了基因集成资源搜索系统,并利用系统中多数据源融合的集成资源进行基因数据挖掘,发现基因的潜在功能。实验结果表明,本文提出的方法在融合了多个数据源之后
创新驱动战略是现阶段国家发展的战略目标,在此大背景下,知识产权战略作为创新驱动战略的重要支撑和保证,作用日益突显。而专利作为一种对知识产权保护(IP)的主要手段也愈加为人们所重视。同时随着新兴技术的飞快发展和专利的申请数量的急剧增长,待审查专利文本大量堆积,并且由于专利本身专业性的加强也使得对专利审查员的专业素质要求越来越高,增加了审查难度。专利侵权检测问题作为审查核心,是突破瓶颈的关键。然而手动
随着智能问答机器人在人工智能领域的不断发展,市场逐步发布了如天猫精灵、小米智能音箱等语音对话类产品,该类产品底层的系统逻辑与算法一直在不断积累与更新。此类产品目前对医学名词及问题还不够敏感。现有意图识别分类较为常用的方法有基于规则模板或特征等,此类方法需消耗较多人力并且覆盖面、分类能力也相当有限。针对上述问题,结合医疗领域对话文本特点,本文提出了基于主题词嵌入的意图识别模型(ETM-T)。该模型将
近年来,以Docker为代表的容器技术已日益成熟,其编排系统Kubernetes的功能日趋完善,但是Kubernetes现有的弹性扩缩容策略存在一些不足之处。本文分析了Kubernetes现有的弹性策略,并针对其存在的问题提出了优化策略。本文主要工作如下:(1)针对Kubernetes现有的扩容策略对新增Pod(Kubernetes中最小的资源调度单元)进行调度时,未考虑多个Pod部署后集群负载均
在命名数据网络(Named Data Networking,NDN)中,安全基于数据内容本身,内容安全性与内容名称和内容生产者的身份相绑定。但在内容检索和内容验证过程中还存在以下内容安全性问题:1)由于命名机制的不透明,导致内容消费者可能无法获得所需可信数据;2)由于传统信任管理模型中以遍历证书链的方式对内容进行验证的时间开销大,导致内容消费者难以验证内容生产者的身份。针对以上2个问题,本文提出一