基于图神经网络和语义表示的实体链接技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:a3321697
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接作为自然语言处理领域的一项关键技术,旨在将文本中的命名实体指称映射到知识库中具有明确意义的实体上,从而消除自然语言本身存在的歧义,构建从人类理解到机器理解的桥梁。目前主流的研究聚焦于如何利用实体嵌入表示知识库中的实体以及优先选择正确的目标实体。本文在前人工作的基础上,提出了基于图神经网络和语义表示的实体链接模型,研究内容主要分为以下三个方面:(1)提出了一种基于图卷积网络的实体嵌入模型。实体嵌入将实体中高维且稀疏的特征利用稠密的向量表示并尽可能保留原有信息。考虑到现有的实体嵌入模型单独考虑实体的语义信息或者结构信息,本文利用实体的描述文本以及链接关系,将知识库中的实体与重要单词作为节点构建实体关联图,之后利用图卷积网络进行特征提取与融合,从而将实体的结构信息和语义信息融入到实体嵌入中。该模型在相关数据集上取得了很好的表现。(2)提出了融合多粒度语义信息的局部链接模型。局部模型利用命名实体指称与候选实体之间的语义相似度进行链接。考虑到不同上下文对命名实体指称的重要程度不同,本文利用记忆网络,将命名实体指称与上下文进行多轮交互,从而获取命名实体指称的深层次语义表示。同时,针对部分命名实体指称上下文存在语义稀疏的问题,本文提出一种融合篇章级语义信息的实体链接模型。该模型首先利用分层注意力机制构建文本的语义表示,之后利用基于注意力的重读机制重新阅读文本中的重点语句,从而捕获文本的核心语义。实验结果证明了模型的有效性。(3)提出了基于动态图神经网络的全局链接模型。全局模型利用文本中所有命名实体指称对应的目标实体之间的关联性进行链接决策。针对全局模型无法有效利用已经链接好的实体的信息,本文在链接过程中不断将目标实体添加至已链实体集合中,利用动态图神经网络动态地建模实体间的关联性,从而引入潜在的主题信息。之后将融入依赖关系的实体利用序列化模型进行决策。最后,将局部链接模型与全局链接模型相结合,进一步提高模型的链接效果。
其他文献
目的1)了解慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)患者吸入制剂使用依从性的现状。2)探索基于目视管理法的可视化健康教育对COPD患者吸入制剂使用依从性、吸入制剂使用方法掌握程度、肺功能、生活质量及运动耐量的影响。3)比较基于目视管理法的可视化健康教育和常规健康教育的应用效果,为改善COPD患者吸入制剂使用依从性提供理论及实践基础。方
学位
近年来,多轮对话回复生成任务的研究受到了学术界和工业界的广泛关注,其让计算机能够通过阅读并理解多轮对话的内容,进行逻辑分析从而给出一个契合对话内容的回复语句。一方面,多轮对话生成研究是自然语言处理领域的一项基本研究任务,对其进行深入研究有利于推动人工智能和自然语言领域的发展;另一方面,其可以满足用户交流的需求,在电商领域的应用可以起到降低人力成本的作用。本文主要针对多轮次对话回复生成展开研究,具体
学位
互联网中存在大量的文本数据,如何将其中非结构化数据转化为人们易于理解的结构化信息,是一个值得思考的问题。实体属性抽取,是将非结构化文本数据转化为结构化数据的一种重要方式,其定义是:给定一个实体及其属性列表,从非结构化文本中抽取出该实体的各个属性值。本文主要研究基于大规模文本数据的实体属性抽取,从大规模文本数据中抽取出实体相应的属性值,构建结构化三元组知识。主要内容如下:(1)研究基于远程监督的人物
学位
元强化学习(Meta-RL)结合了元学习和深度强化学习,是目前机器学习领域的研究热点之一。Meta-RL算法从一系列任务中学习并提取先验知识,从而利用先验知识快速适应新的任务。传统Meta-RL算法存在元训练计算量过大、训练时间过长、样本利用率低等问题。基于任务推断的元强化学习算法通过引入任务信念来形式化表征任务,将元强化学习问题转化为在线的任务信念推断与基于任务信念的策略学习问题,并结合了异策略
学位
实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上该任务的研究相对丰富,已经取得了一定的成果,但面向对话文本的相关研究还处于起始阶段。随着对话系统相关研究逐渐深入,对话场景中实体关系抽取的重要性日渐显露,研究者们试图借助抽取到的实体关系进行对话文本的场景焦点识别、对话场景的知识增强,以期更好地理解对话文本。相较于规范文本,目前用于实体关
学位
文献指数增长,研究者们需要花费大量时间进行文献查找。已有的推荐方法通过计算文献之间的相似性对推荐结果进行排序,忽略了文献之间的语义和主题相关性、多层引用关联性和推荐过程的解释性,不能很好地对相关领域的文献进行面向主题的查新。本文提出了新的文献推荐方法,对于给定的查询文献的标题、摘要和关键词,能够进行面向主题的相关文献查新,让研究者们了解该查询文献研究领域的最新研究进展。具体工作如下:(1)为了能够
学位
在移动互联网、大数据技术日渐成熟的时代,各领域的数据以指数级规模迅速增加。然而数据就像一把双刃剑,虽然方便了人们的生活,却也带来了信息过载的问题。针对用户历史记录的个性化推荐服务能够缓解这一问题,并且能提升用户在购物平台的体验,所以下一个购物篮推荐成为学术界和工业界的研究重点。在下一个购物篮推荐任务中,普遍存在物品与用户关系、用户购物的顺序模式难以挖掘、用户兴趣偏好难以表示等问题,引起了众多学者的
学位
针对机器人在加工和装配等领域应用时存在精度等方面的不足,提出了一种多电机共轴驱动的七自由度机械臂设计方案,在机械臂的腰、肩、肘关节处布置了双电机共轴驱动的关节结构。提出了双电机共轴驱动的消隙控制方法和同步控制方法,并给出了上述两种控制算法之间平滑切换的转换条件。在底层控制基础上,应用ROS和EtherCAT总线技术搭建了机械臂的上层控制系统。结果表明,本文设计的七自由度机械臂系统在精度、负载能力上
期刊
自然语言文本中的信息多种多样,如时序信息、空间信息、语义角色信息等。其中,时序信息抽取任务旨在识别出文本中的时序对象,并从时间角度上对时序对象间的先后关系进行正确分类。该任务中抽取出的时序信息有助于自动问答、文本摘要等下游任务,在自然语言处理领域发挥着不可忽视的作用。分析时序信息抽取的研究现状可以发现,该研究领域存在三个明显的问题:(1)方法多采用传统的特征工程,自动化程度偏低,且领域适用性不足;
学位
以酸度、pH值、持水性及感官评分为评定指标,借助单因素试验和响应面曲面分析法优化黄精发酵豆乳的工艺参数。测定成品中总酚、总黄酮含量,以DPPH、ABTS+自由基清除率等指标评价黄精发酵豆乳的总抗氧化能力。采用高效液相色谱法测定发酵后的大豆异黄酮含量。结果表明:最优工艺为料液比1∶6.4(g/mL)、豆浆与复原乳体积比6∶4、黄精添加量2%、白砂糖添加量6%、发酵温度42℃、发酵时间6.5 h。通过
期刊