面向大规模知识库的可扩展推理关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kinghuang1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,基于大规模知识库的智能应用已逐渐成为工业界和学术界关注的热点。典型的智能应用如专家系统、语义搜索系统和个人智能助手等都利用了大规模知识库,并采用语义推理的方式发现知识库中的隐含知识,从而实现应用系统的智能化。  随着知识库规模的急剧增长,语义推理面临新的挑战。推理引擎一方面需要采用可扩展架构,实现高性能并行推理,另一方面需要支持丰富的推理语义,以发掘复杂但有价值的隐含信息。然而现有推理引擎还很难同时满足这两方面的需求。在可扩展性方面,由于计算资源的限制,单机推理引擎无法经济而高效地支持大规模知识库的推理;由于数据倾斜和数据传输频繁等原因,基于P2P和DHT的分布式推理引擎的可扩展能力受限。在语义支持方面,现有面向大规模知识库的可扩展推理引擎主要支持RDFS/OWL ter Horst语义规则集,这些语义规则集只是OWL2RL语义规则集的子集,并且OWL2RL语义规则集不包含应用相关的语义,因此现有可扩展推理引擎所支持的语义尚难以充分满足智能应用的需要。  Datalog语言除了可以描述OWL RL语义规则集外,还可以描述大量与应用相关的语义规则,因此传统支持丰富语义的单机推理引擎通常采用物化Datalog程序执行结果的方式实现推理。本文在大数据处理框架(如Hadoop或Spark)的基础上,提出一种基于Datalog程序并行物化的方法,用于实现大规模知识库的推理。大数据处理框架使推理系统具有较强的可扩展能力,而Datalog语言的语义描述能力让推理系统能够支持丰富的语义。本文旨在解决大规模知识库的可扩展推理问题,主要包括两个方面:(1)Datalog程序与并行作业之间的转换问题;(2)推理系统的效率问题。针对这两个问题,本文从以下四个方面开展了研究:  (1)基于模型转换的Datalog程序可扩展推理机制:由于Datalog程序与并行作业的执行逻辑之间存在语义鸿沟问题,Datalog程序和并行处理的任务之间的映射关系比较复杂。同时随着大数据处理技术的发展,新编程模型的出现也会使Datalog程序与并行作业的转换过程更加复杂。为此本文提出一种FREEM模型(Four-stage Rule ExEcution Model),该模型可以充分表达Datalog程序执行的逻辑,并且可以根据需要转换成不同并行编程模型所对应的并行作业。在该模型的基础上,本文进一步介绍了如何将Datalog程序自动转换成常用大数据处理框架(如Hadoop和Spark)上的并行推理任务。推理过程中难免存在重复的推理结果,考虑到推理结果去重的复杂性,本文研究了不同的去重策略以适应不同的去重场景。最后,论文在真实数据集和模拟数据集上验证了该机制在Hadoop和Spark上都有良好的可扩展性,同时也验证了去重策略的有效性。  (2)基于推理语义和知识库统计特征的规则执行优化方法:将Datalog程序转换成并行作业过程中,由于数据倾斜和重复执行等原因导致规则执行效率较低,通过分析知识库中各类知识的分布情况和推理语义的特点,本文提出一种基于推理语义和知识库统计特征的规则执行优化方法。该方法包含一系列的优化策略:基于缓存的规则执行优化、并行作业合并和推理结果重用。本文以Spark为例在模拟数据集和真实数据集上验证这一系列规则执行优化方法的有效性,实验表明这些优化能够给推理系统带来显著的性能提升,推理耗时最多可减少74%。  (3)基于采样的依赖感知的规则执行调度策略:考虑到规则执行的结果可能触发其他规则的执行,从而使得规则执行之间存在依赖关系,不同的规则执行顺序将导致推理性能有巨大差异,因此根据依赖关系调度规则的执行将提升推理系统的性能。然而,直接分析规则文本的方式很容易获取到错误的依赖,为此本文提出了一种基于采样的依赖获取方法,并介绍了一种依赖感知的规则执行调度方法。最后,在模拟数据集和真实数据集上进行的大量实验验证了该方法的有效性,实验结果表明该方法可以使推理耗时在规则执行优化的基础上最多可减少69%。  (4)基于Datalog程序物化的可扩展推理系统实现技术:在上述工作的基础上,本文进一步介绍了基于Spark的可扩展推理原型系统PlogSpark,并在模拟数据集和真实数据集上测试了系统的可扩展性。实验结果表明该系统可以达到近似线性的可扩展能力,在支持Datalog语言描述的丰富语义的同时,与现有仅支持RDFS/OWL ter Horst语义的可扩展推理系统的性能相近,性能差距在20%以内。  为了实现大规模知识库的推理,本文提出了一种基于Datalog程序并行物化的推理方法,使推理系统一方面具备现有分布式并行推理系统的高可扩展性,另一方面和现有单机推理系统一样支持丰富的语义,从而能够更好地支撑智能应用。
其他文献
手术导航系统是计算机辅助手术中的一部分,它将病人术前影像和术中解剖结构相对应,通过空间定位设备实时跟踪手术器械并将手术器械的位置在病人影像上以虚拟探针的形式实时显示
Impala系统是Hadoop上的分析型查询数据库,支持高并发的多用户查询。当用户并发数量提升时,用户查询很可能存在相关性。若Impala系统支持多查询优化,对这些相关查询的中间结果加
目前推荐算法中,协同过滤推荐应用最为广泛,也最为成功。这种算法的原理是:收集用户的历史信息来识别出用户邻居,进而通过分析用户邻居的喜好来找到该用户可能感兴趣的内容。 
学位
地图匹配是车辆导航的关键技术之一,它利用较精确的电子地图信息对带误差的原始定位数据进行修正,使车辆位置总是处于道路之上,不仅可以提高导航位置精度还能改善屏幕显示效果,其
卫星网络将服务于多种高带宽需求的业务(如高分图像近实时回传、跨区域分布式计算),这对网络的传输性能提出了较高要求。虽然随着星间链路技术的发展与星上处理能力的增强,卫星网
随着网络技术的迅速发展和系统功能的日益复杂,系统越来越需要一个可以信赖的计算环境来保证其中敏感信息的安全性、完整性和可靠性。系统不仅需要保证敏感应用程序自身代码的
学位
随着交通车辆的日剧增多,交通拥堵变得越来越严重,缓解交通拥堵成了目前迫切需要解决的问题。在缓解交通拥堵的过程中,智能交通技术快速地发展了起来。在智能交通技术快速发展的
学位