知识图谱实体匹配模型构建与应用研究

被引量 : 0次 | 上传用户:liongliong462
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识的不断积累和科学的飞速发展,知识图谱和基于知识图谱发展起来的认知智能,为精细的大数据分析提供了有力的技术支持,能够赋能舆情分析、商业推荐、语义搜索等多种领域,在图情领域也因其能够直观形象地解读学科的发展趋势和研究热点等,得到了广泛的应用。然而现存知识图谱大多由各类开发者根据自己的需求构建,很多知识存在重复或错误,同一个实体对应多条记录的情况十分常见,同一领域也常常存在多个类似的知识图谱,为知识图谱的应用带来了一些阻碍。因此急需对知识图谱进行实体去重及数据融合,而这其中最为关键的技术为实体匹配,即识别出对应相同实体的不同节点。本文针对知识图谱的实体匹配问题,提出了一种基于图神经网络方法Graph SAGE的实体匹配模型,并将模型进行了实际应用。该模型采用模块化设计,分为图表示学习和匹配分类器两个模块,综合考虑了知识图谱的结构特征和实体属性的相似特征。该模型可以用于单图谱内的重复实体识别和多图谱间的实体对齐两种任务场景,改善了现有方法的不足,提升了实体匹配模型的性能,拓展了知识图谱优化领域的研究。本文首先构建了知识图谱实体匹配模型:(1)通过Graph SAGE对知识图谱进行图表示学习,将图谱映射到一个低维向量空间;(2)使用孪生神经网络构建匹配分类器,将节点两两一组作为训练样本,以“属于相同实体/不属于相同实体”作为标签,训练匹配分类器;(3)从匹配分类器中提取出实体嵌入向量,在实体向量空间中查询属于相同实体的节点,实现实体的精准匹配。另外将实体嵌入向量压缩编码成实体二进制码,实现实体的快速匹配。随后,本文分别在图情和医疗领域对该实体匹配模型进行了实证研究,选取文献知识图谱和医疗知识图谱作为实验样本的来源,采用分段实验的方法分别验证模型中每个模块的合理性和有效性。本文使用可视化方法展示图表示向量的质量,进而通过实体匹配任务的评价指标(准确率、召回率和F值)来检验匹配分类器和向量压缩方法的效果。实验结果证明了本文构建的知识图谱实体匹配模型在匹配准确率、匹配速度和对不同领域知识图谱的适应性等方面比现有模型更加优越。本文的研究还有一些不完善之处,未来可以针对这些不足做出改进:(1)知识图谱存在属性异构和属性噪声的问题,未来可以考虑在实体匹配之前对实体属性进行预处理;(2)本文模型将知识图谱中边的类型作为节点特征的一部分进行学习,未来可以考虑使用更加直观的方式将边的类型信息加入到模型结构中;(3)本文模型中的匹配分类器采用有监督的训练模式,需要一部分人工标注的数据,未来可以考虑构建无监督的训练方法,减少人力参与,使整个实体匹配模型实现完全自动化。
其他文献
咳嗽是呼吸道最常见的症状,而持续3周以上者,可认为是慢性咳嗽.长期、频繁的咳嗽,可影响小儿的摄食,乃至生长发育.同时,可引起多种严重的并发症.笔者以银翘散加减治疗49例.结果:显效31例,有效14例,无效4例,总有效率为91.8%.银翘散为辛凉平剂,主治风温初起,邪在卫气.出自清代著名温病学家吴鞠通的《温病条辨》,具有轻清宣透上焦温热之邪的作用,病位在肺,与慢性的病机相一致.“治上焦如羽,非轻不举
会议
报纸
2022年3月份以来,受房企信用风险持续发酵、烂尾项目不断增多、房地产销售持续冰冻等因素影响,房地产金融政策持续宽松,但政策效果尚未显现。房企信用违约事件仍不断发生,房企流动性仍承压,房地产行业产能将继续出清。
期刊
期刊
咳嗽变异型哮喘(CVA)是指以咳嗽作为主要临床症候的哮喘.笔者近年来发现不少表现为久治不愈,顽固性咳嗽的CVA患者,投以柴胡止嗽汤加减治疗.本组35例,均为门诊病例.男20例,女15例;年龄2岁半~14岁;其中2岁半~7岁24例,8~14岁11例,病程最短者3个月,最长者4年,结果:临床痊愈9例,显效13例,好转10例,无效3例,总有效率91.4%.小儿脏腑幼嫩,形气未充,腠理疏薄,卫外不固,纯阳
会议
世界是复杂的,知识驱动的应用也分布在各领域。在信息检索领域,可以从Wikipedia中获取和实体相关的描述;在图像分类领域,可以从Image Net中获取和实体相关的图片;在智慧医养领域,可以同时从EMR中获取和疾病实体相关的图片和描述。因此,结合相应领域的数据并设计合适的知识图谱表示学习算法模型,对智能问答等知识驱动的应用具有重要意义。本文旨在充分利用与实体相关的多源信息辅助构建更好的知识图谱表
学位
报纸
<正>学原文明确全面深化改革总目标是完善和发展中国特色社会主义制度、推进国家治理体系和治理能力现代化。——《中共中央关于党的百年奋斗重大成就和历史经验的决议》党的十九大和十九届六中全会,把习近平新时代中国特色社会主义思想的主要内容概括为“十个明确”“十四个坚持”“十三个方面成就”。而“十个明确”中第五个明确是:“明确全面深化改革总目标是完善和发展中国特色社会主义制度、
期刊
随着大数据和人工智能时代的到来,知识图谱技术得到充分的发展和利用。作为知识图谱技术的重要一环,目前实体链接任务已经备受学术界和工业界的研究者们关注。由于自然语言存在歧义,需要准确地抽取、识别用户表达的真实含义便是巨大挑战,而实体链接技术则在这挑战上发挥了重要作用。基于对知识图谱和实体链接相关技术的调研,设计实用性的基于知识图谱的实体链接算法系统。在数据集选取上,挑选了北京大学中文百科知识图谱PKU
学位
<正>校园内的体育建筑是校园基础设施之一,在学生们的学习以及生活过程当中,发挥着十分重要的作用。在对体育场地建筑进行设计时,应当对体育场地建筑进行合理规划,科学合理的体育场地建筑能够在一定程度上提升体育教学效果以及体育教学质量,能够给学生们带来更多的乐趣,让学生们感受到运动的快乐。《当代中国体育建筑的建设历程与发展趋势》主要研究1949年至今我国体育场馆建设的过程以及发展历程,举了多个体育场馆建设
期刊