领域知识图谱构建中的知识融合关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dlghk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱为信息时代复杂多样的数据提供了一种基于语义的组织互联方法,在查询理解、深度搜索、智能问答以及数据挖掘等人工智能相关任务中产生了良好的应用价值。领域知识图谱着眼于对特定领域的数据进行更全面的获取与更深入、准确的关联,因此在行业应用中具有明显优势。在图谱构建过程中,由于有用信息通常分散在不同数据源中,因此一个关键任务是对多源异构数据中的知识进行有效融合。实体对齐与属性对齐是两个重要的基于语义的知识融合技术,传统对齐方法主要针对开放链接数据(Linked Open Data,LOD),但许多特定领域缺乏LOD数据源,大量知识存在于规范性较低、语义信息不完整的原始Web数据中,使得已有方法的效果受到影响。  针对上述问题,本文研究了可推广到原始数据源的实体对齐和属性对齐算法,并将其应用到领域知识图谱的构建中。论文的主要工作和研究成果如下:  1.针对原始数据中实体间的语义关联不够明确,以及先验对齐实体获取成本较高等问题,提出基于协同训练的半监督实体对齐算法。算法将实体对齐建模为二分类问题,充分利用原始数据中实体本身的可用信息生成四种类型的特征,并将特征空间划分为文本视图和关键离散值视图,通过引入协同训练的半监督学习框架,利用两个视图协同学习未标注数据中实体的分布信息来提高模型的效果。实验结果证明,此方法在只有少量标注实体对的情况下,取得了良好的对齐效果,性能优于有监督实体对齐方法和基于自训练的半监督实体对齐方法。  2.针对原始数据中属性表达灵活多样,以及属性间复杂的语义关系对同义属性识别产生干扰的问题,提出一种数据驱动的无监督属性对齐方法。方法首先给出改进的属性相似性测度,并引入差异性测度表征属性不相同的程度;其次,利用自动选择的阈值确定候选同义属性集合,并采用差异性过滤机制去除候选中的干扰属性;最后利用同义关系的传递性,使用层次聚类算法获取同义属性簇。实验证明,该方法在LOD数据集和原始数据集上都有良好的表现,效果优于传统无监督属性对齐方法。  3.将上述知识融合方法应用到领域知识图谱的构建中,基于四个异构的原始中文数据集,构建出一个包含771个概念、约8.2万实体和38.5万事实三元组的军事知识图谱原型。
其他文献
随着全球导航定位系统(GNSS)技术的成熟和应用的普及,针对GNSS信号的高动态接收机的研究已然成为热点,尤其是在车载和高动态的情况下,跟踪环路(TRACKING LOOP)如何稳定持续的
目的:研究全科医师对糖尿病患者实施规范管理的临床效果.方法:选取本社区2018年3月到2019年3月持续治疗的糖尿病患者80例,分别随机选取40例入对照组和试验组.予以对照组患者
目的:研究腹腔镜微创术在老年直肠癌中的应用价值.方法:2017年8月-2019年8月本院接诊的老年直肠癌病患66例,采用随机数表法划分成A组和B组(n=33).当中,A组实行腹腔镜微创术治
目的:研究分析丁苯酞对缺血性脑卒中的保护机制及治疗研究进展.方法:从缺血性脑卒中的发病机制,丁苯酞在缺血性脑卒的作用机制入手,分析了丁苯酞对缺血性脑卒中的保护机制和
本文通过对荣华二采区10
期刊
目的:对施行产科手术采取七氟醚吸入全身麻醉,探究此方法的应用效果以及产妇的并发症发生率情况.方法:选取我院妇产科2018年1月-2019年1月收治的68例产妇作为研究对象,按随机
子宫内膜癌为女性常见恶性肿瘤之一,近年来,随着人们经济水平和饮食习惯的改善,发病率呈逐年增高势态,而且呈现年轻化的趋势.本文立足自身临床知识,对白介素17(IL-17)在子宫
目的:研究穴位按摩联合穴位贴敷对急性阑尾炎术后胃肠功能的影响.方法:选取我院2017年1月至2018年12月急性阑尾炎患者68例,随机分为观察组及对照组,每组均为34例.对照组常规
本文通过对荣华二采区10
期刊
目的:探讨上海市宝山地区本地居民亲骨性肿瘤骨转移的发生率.方法:357例亲骨性肿瘤(前列腺癌90例,乳腺癌151例,肺癌116例)患者行99Tcm-MDP全身骨显像,观察亲骨性肿瘤的骨转移