面向开放知识网络的多源知识融合方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:jees_giggle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据时代的到来,构建面向开放网络的知识库已成为国内外工业界和学术界研究的一个热点。虽然目前国内外多个研究机构建立了很多知识库,但是这些知识库对开放网络的知识缺乏全面统一的表示,而且这些知识库在知识的覆盖率和时新性方面仍存在诸多不足。为了更好的支持基于开放网络知识库的知识查询、知识推荐等应用,研究自适应的开放网络的知识融合具有重要的意义。然而,由于开放网络的知识具有多样性、时空演化性以及表达歧义性的特点,所以自适应的开放网络的知识融合面临着巨大的挑战。因此,本文在开放网络的背景下,对知识融合问题进行了深入的探讨,研究了针对开放知识网络(Open Knowledge Network,简称OpenKN)的多源知识的融合方法。其中,开放知识网络是一种面向网络大数据的知识表示和计算框架,它具有开放、自适应和自学习等特点,开放是指知识的来源是多样的,既包括实时变化的互联网开源数据,也包括其它多种来源的知识模型。本文的研究目标是使得开放知识网络能快速地融合网络中新产生的知识,增强知识网络的扩展能力和覆盖能力,从而满足用户对知识的时新性要求。本文从知识的组成要素出发,重点研究多源知识融合中的实体融合,关系融合和类别融合三个问题,主要内容和贡献如下:  (1)针对采用统计特征和词汇特征的方式对长尾实体表现稀疏,导致实体的融合准确率不高的问题,本文提出了一种基于依赖图联合推断的实体融合方法,该方法采用依赖图模型统一建模文本实体、知识网络中的实体和类别之间的相关关系,并通过重启动随机游走的联合推断算法实现了同一文本中所有实体在知识网络中所处位置的联合推断。在标准测试集TAC-KBP13和TAC-KBP14上的实验结果表明,该方法与当前流行的基于上下文概念的方法相比,实体融合的正确率分别提高5.4%和5.5%。  (2)针对基于语义的关系融合方法过度依赖外部语义词典或语料库导致语料库稀疏时方法失效的问题,本文提出了一种基于实体-关系嵌入(Embedding)方式的关系融合方法,该方法利用实体和关系双语义嵌入空间的学习方式,自动学习实体-关系在嵌入空间的特征表示,改进同义关系和多义关系融合的性能。实验结果表明,与当前先进的TransR和CTransR方法相比,该方法能够有效提升关系融合的正确率。  (3)针对当前单一的类别融合方法不适应异构、大规模的类别体系融合的扩展性的问题,本文分别提出了两种类别融合的方法:基于复合结构的方法和基于集成排序的方法。首先,基于复合结构的方法借助类别体系结构上的共同点,将类别体系融合问题转化为二部图上的优化问题,实验结果表明,该方法能够有效提升异构、跨领域类别体系融合的正确率。其次,基于集成排序的方法利用元搜索技术,将现有的匹配器集成在一起,通过提供统一的评价机制,对多个独立的匹配器进行优化利用,提升类别体系匹配的有效性。实验结果表明,与当前先进的基准方法相比,该方法在类别融合的综合评价指标F1值上实现了平均超过5%的提高,从整体上适应了多源类别体系的融合。  总之,针对现有工作对于开放网络中多源知识融合的不足之处,本文提出的面向开放知识网络的知识融合方法能够适应开放网络中多源知识的融合。在标准数据集上进行的一系列实验表明,相对于已有的方法,本文的方法能够获得较为准确的融合结果,依据这些融合方法设计实现的知识融合系统,在多个研究项目和实际应用项目中得到应用,进一步印证了研究成果的可行性与价值。
其他文献
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称
随着计算机技术的不断发展,软件复杂度有了很大的提高。软件中存在的问题越来越突出。因此,提高软件质量及可靠性已成为当前软件工程领域的重要任务。软件测试是保障软件质量
信息技术的飞速发展引发了人类生活方式的巨大转变,RFID、穿戴式传感设备、智能家居等新技术的普及加速了物理世界和赛博空间的融合。三元计算理论是在这一背景下出现的新型计
自1950年图灵测试提出以来,问答系统一直是人工智能领域研究的重要课题之一。相对于英文问答系统的迅速发展以及语义信息处理技术的广泛应用,目前语义分析的方法在汉语问答系统
语音识别噪音场景库的建设对于语音识别技术及评测技术都具有重要的研究意义.噪音场景库的设计包括对噪音场景进行分布估计、聚类分析、自动分类等流程.本文首先用统计学的抽
近年来,流媒体在互联网上大量应用。然而,媒体的质量并不让人满意。主要是由于传统C/S模式过分依赖媒体服务器的性能和带宽。于是,研究人员想出了很多的解决办法。其中比较有代
学位
土地评价是土地利用与规划的关键步骤,是土壤科学研究的主要内容之一。土地评价一直是一个较为复杂的问题,不同地区对农业生产具有不同的影响因子,各影响因子对不同的生产目标又
互联网作为一种交互式媒体,被越来越多的人用来表达自己的观点和态度。这些带有倾向性的主观性语言集中在Blog、论坛和留言之中,包含有大量信息,自动挖掘其中的观点和态度,具有十
科学数据网格是在中国科学院科学数据库海量数据资源的基础上,利用先进的数据网格技术,连接分布在全国四十多个研究所而建设的一个面向大规模分布式异构数据资源的共享平台和应
学位
随着计算机网络性能的不断改进以及虚拟现实技术的广泛应用,越来越多的工程协作编辑以及军事仿真演练系统都开始依赖于虚拟仿真平台。如何构建一个能够适应在目前网络条件下实