论文部分内容阅读
近年来,随着大数据时代的到来,构建面向开放网络的知识库已成为国内外工业界和学术界研究的一个热点。虽然目前国内外多个研究机构建立了很多知识库,但是这些知识库对开放网络的知识缺乏全面统一的表示,而且这些知识库在知识的覆盖率和时新性方面仍存在诸多不足。为了更好的支持基于开放网络知识库的知识查询、知识推荐等应用,研究自适应的开放网络的知识融合具有重要的意义。然而,由于开放网络的知识具有多样性、时空演化性以及表达歧义性的特点,所以自适应的开放网络的知识融合面临着巨大的挑战。因此,本文在开放网络的背景下,对知识融合问题进行了深入的探讨,研究了针对开放知识网络(Open Knowledge Network,简称OpenKN)的多源知识的融合方法。其中,开放知识网络是一种面向网络大数据的知识表示和计算框架,它具有开放、自适应和自学习等特点,开放是指知识的来源是多样的,既包括实时变化的互联网开源数据,也包括其它多种来源的知识模型。本文的研究目标是使得开放知识网络能快速地融合网络中新产生的知识,增强知识网络的扩展能力和覆盖能力,从而满足用户对知识的时新性要求。本文从知识的组成要素出发,重点研究多源知识融合中的实体融合,关系融合和类别融合三个问题,主要内容和贡献如下: (1)针对采用统计特征和词汇特征的方式对长尾实体表现稀疏,导致实体的融合准确率不高的问题,本文提出了一种基于依赖图联合推断的实体融合方法,该方法采用依赖图模型统一建模文本实体、知识网络中的实体和类别之间的相关关系,并通过重启动随机游走的联合推断算法实现了同一文本中所有实体在知识网络中所处位置的联合推断。在标准测试集TAC-KBP13和TAC-KBP14上的实验结果表明,该方法与当前流行的基于上下文概念的方法相比,实体融合的正确率分别提高5.4%和5.5%。 (2)针对基于语义的关系融合方法过度依赖外部语义词典或语料库导致语料库稀疏时方法失效的问题,本文提出了一种基于实体-关系嵌入(Embedding)方式的关系融合方法,该方法利用实体和关系双语义嵌入空间的学习方式,自动学习实体-关系在嵌入空间的特征表示,改进同义关系和多义关系融合的性能。实验结果表明,与当前先进的TransR和CTransR方法相比,该方法能够有效提升关系融合的正确率。 (3)针对当前单一的类别融合方法不适应异构、大规模的类别体系融合的扩展性的问题,本文分别提出了两种类别融合的方法:基于复合结构的方法和基于集成排序的方法。首先,基于复合结构的方法借助类别体系结构上的共同点,将类别体系融合问题转化为二部图上的优化问题,实验结果表明,该方法能够有效提升异构、跨领域类别体系融合的正确率。其次,基于集成排序的方法利用元搜索技术,将现有的匹配器集成在一起,通过提供统一的评价机制,对多个独立的匹配器进行优化利用,提升类别体系匹配的有效性。实验结果表明,与当前先进的基准方法相比,该方法在类别融合的综合评价指标F1值上实现了平均超过5%的提高,从整体上适应了多源类别体系的融合。 总之,针对现有工作对于开放网络中多源知识融合的不足之处,本文提出的面向开放知识网络的知识融合方法能够适应开放网络中多源知识的融合。在标准数据集上进行的一系列实验表明,相对于已有的方法,本文的方法能够获得较为准确的融合结果,依据这些融合方法设计实现的知识融合系统,在多个研究项目和实际应用项目中得到应用,进一步印证了研究成果的可行性与价值。