知识图谱的扩展与检错关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:ibm__1235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱作为当今最有影响力的数据共享源与知识解释工具,其重要程度不言而喻。如今在大数据环境下,随着事物的快速演变,知识图谱的扩展与检错工作成为了研究热点之一。知识图谱扩展与检错的核心任务可细分为两个方面,即对外部知识的理解与对自身内部知识的推理。因此,本文将分别介绍对外部数据源进行解析时遇到的困难与对自身内部知识进行推理时面临的挑战,并通过提出行之有效的解决方案来克服研究内容中的难点。论文主要的研究内容与贡献如下:1.基于集体推理的万维网表格语义理解与实体扩展:传统的集合相似度匹配方法无法对无重叠元素的两个集合进行匹配。由于知识图谱的不完整性与万维网内容的多样性,万维网表格与知识图谱中存在很多语义相似却无法匹配的列与类别。另外,较少的重叠元素还会导致低质量的列类匹配结果。因此,本文提出了一个全局集体推理框架来推理未知列的语义类别,同时还能够大幅度提高列类匹配的Top-k质量,尤其是Top-1的质量。另外,本文设计了一套有效的列语义匹配模型,其中包括了对列的特征抽取以及训练数据的自动生成方法。此外,考虑到数据集的规模,还提出了三种推理策略来提升整体的推理效率。最后,本文采用众包对列类匹配结果抽取出的实体进行验证后扩展到知识图谱中。2.基于众包技术的万维网表格模式解析与知识扩展:为了更好地理解万维网表格的语义,本章提出了一个人机结合的方式来解析万维网表格的语义模式。由于众包的高昂费用与延迟代价,本章采用快速排序连接算法设计了 一个全自动机器方法,并通过提前终止无意义的模式计算来快速生成优质的Top-k个模式候选,以减少众包问题的总数量。同时,为了提高众包的利用率,论文还设计了众包问题的分派优化算法,并通过设计问题的形式来保障众包答案的质量。最后,基于人机结合所选取的最优模式抽取出全新的知识,并实现对知识图谱的扩展。3.基于关系敏感嵌入式技术的知识图谱扩展与检错:针对知识图谱中存在的不一致性与不完整性问题,提出了一种基于关系敏感的嵌入式模型对知识图谱进行推理,以实现知识补全与错误检测的目的。论文设计了两种关联关系的评价函数,并采用动态聚类算法将高度关联的关系聚合到一起。因此,在知识图谱嵌入过程中,可以通过引入关联关系间的影响来修正知识图谱中的不一致性所带来的偏差。同时,本文的方法还可以与传统模型进行结合来达到更好的推理预测效果。
其他文献
超高速飞行器在再入大气的过程中由于与周围空气剧烈摩擦,导致空气温度升高,高温气体与飞行器表面材料发生复杂的热化学反应,会产生一层包裹飞行器表面的鞘套层,该鞘套层对于
本次翻译实践报告节选自华裔女性作家韩素音的作品《四面佛》。《四面佛》以韩素音最钟爱的闹剧为创作形式,并围绕“中立主义作家大会”这一线索展开故事情节,同时还交织着一位英国女孩的离奇死亡案件。该文本的特色鲜明:口语化对话、对人生价值等富有哲理的探讨、对人物心理活动的描写以及对柬埔寨地缘文化的描写,是一部不可多得的地缘政治小说。该书一共八章,本报告将第一章作为此次翻译实践的文本材料,并以泰特勒翻译三原则
学位
硫铵渣是磷化工行业磷石膏制备硫酸铵过程中产生的废弃物,其水分高、细度高、成分复杂,它的有效利用是磷石膏大规模综合利用的关键。本论文针对该类废渣碳酸钙含量高的特点,
随着社会的快速发展,人口老龄化正在迅速成为一种全球现象,慢性病发病率日益增加,越来越多的老年人面临着肌肉力量、平衡和活动能力等身体功能受损的严重挑战。目前,各国医疗保健系统针对老人的康复计划尚在起始阶段,常规的康复在医院医生的直接监督下进行,出院后返回社区或家庭进行进一步的康复锻炼,以维持和加强康复的效果。然而很多老人在家庭康复中,对锻炼方案坚持程度较低,导致治疗的时间被延长,康复效果不佳。因此,
学位
机器人与人协同作业可以充分发挥各自的优势,提高工作效率和舒适度。目前,人机协作已经在人类的生产和生活中得到了越来越多的应用,人们对其协调性和安全等方面的要求也越来越高,因此研究机器人在人机协作中的运动生成和控制策略有着十分重要的意义。本论文通过设计合理的人机协作中的机器人的运动规划方法,使得机器人能够根据任务执行过程中人的动作来生成相应的机器人运动,以提高机器人的协调性以及人机协作中的安全性。并且
针对井壁失稳的研究工作从20世纪40年代起就开始进行,直到今天,井壁失稳问题仍然是石油工业的一个十分重要且棘手的问题。随着科技的发展以及各种理论逐步完善,人们开始重视
本文第一部分研究三角形区域上的复合边值问题。首先利用Schwarz-Christoffel公式,得到半平面到多角形区域的共形映射。在已有的单位圆到上半平面的共形映射基础上,通过换元
随着移动互联网的高速发展,基于移动互联网和智能移动设备的各种软件产品成为了人们日常生活的重要部分。产品若要打入市场并且保持竞争力,需要有良好的产品设计。当前,市场
特色鲜明的景观空间设计对于减少村落规划的相似度,构建村落的景观特质有着重要的意义。传统元素蕴含着丰厚的历史文化积淀与传承,展现出浓郁的地域风情。传统元素与景观设计
本文主要研究扰动的模糊变分不等式,扰动的广义混合变分不等式,扰动的似变分不等式三类变分不等式解的存在性问题,我们用非线性映射和回收锥里的向量两种扰动方式对三类变分