论文部分内容阅读
知识图谱为信息时代复杂多样的数据提供了一种基于语义的组织互联方法,在查询理解、深度搜索、智能问答以及数据挖掘等人工智能相关任务中产生了良好的应用价值。领域知识图谱着眼于对特定领域的数据进行更全面的获取与更深入、准确的关联,因此在行业应用中具有明显优势。在图谱构建过程中,由于有用信息通常分散在不同数据源中,因此一个关键任务是对多源异构数据中的知识进行有效融合。实体对齐与属性对齐是两个重要的基于语义的知识融合技术,传统对齐方法主要针对开放链接数据(Linked Open Data,LOD),但许多特定领域缺乏LOD数据源,大量知识存在于规范性较低、语义信息不完整的原始Web数据中,使得已有方法的效果受到影响。 针对上述问题,本文研究了可推广到原始数据源的实体对齐和属性对齐算法,并将其应用到领域知识图谱的构建中。论文的主要工作和研究成果如下: 1.针对原始数据中实体间的语义关联不够明确,以及先验对齐实体获取成本较高等问题,提出基于协同训练的半监督实体对齐算法。算法将实体对齐建模为二分类问题,充分利用原始数据中实体本身的可用信息生成四种类型的特征,并将特征空间划分为文本视图和关键离散值视图,通过引入协同训练的半监督学习框架,利用两个视图协同学习未标注数据中实体的分布信息来提高模型的效果。实验结果证明,此方法在只有少量标注实体对的情况下,取得了良好的对齐效果,性能优于有监督实体对齐方法和基于自训练的半监督实体对齐方法。 2.针对原始数据中属性表达灵活多样,以及属性间复杂的语义关系对同义属性识别产生干扰的问题,提出一种数据驱动的无监督属性对齐方法。方法首先给出改进的属性相似性测度,并引入差异性测度表征属性不相同的程度;其次,利用自动选择的阈值确定候选同义属性集合,并采用差异性过滤机制去除候选中的干扰属性;最后利用同义关系的传递性,使用层次聚类算法获取同义属性簇。实验证明,该方法在LOD数据集和原始数据集上都有良好的表现,效果优于传统无监督属性对齐方法。 3.将上述知识融合方法应用到领域知识图谱的构建中,基于四个异构的原始中文数据集,构建出一个包含771个概念、约8.2万实体和38.5万事实三元组的军事知识图谱原型。