大规模并行化语义规则推理技术研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:liucrobin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着语义网技术在众多领域的广泛应用,语义数据以惊人的速度迅速增长。大规模语义数据中包含了很多复杂的隐含信息,这些隐含信息对语义分析应用具有非常重要的价值。然而,传统的单机语义推理技术和算法由于受软硬件环境的限制已无法高效地处理大规模的语义数据。在此背景下,通过并行化技术解决大规模语义数据的推理问题成为新的研究热点。过去几年,一些并行化推理方法和系统不断地被提出,比如基于分布式哈希技术、基于P2P网络和基于MapReduce的分布式推理技术和算法等。然而,由于语义推理任务存在计算流复杂、数据共享重用频繁、迭代处理轮次多等特点,现有的并行化推理方案在处理大规模语义数据时在执行效率和可扩展性方面还存在较大的不足和缺陷。为了解决这些问题,本文在详细分析了主要的语义推理规则以及当前主流的并行化大数据计算系统和平台的基础之上,提出了一整套高效的语义推理并行化解决方案,设计并实现了一系列并行化的推理算法和系统。从推理规则的种类来看,具体研究工作主要分为以下两部分:1)并行化RDFS推理算法的研究。以语义网推理领域广为使用的RDFS规则推理为研究对象,分别从数据划分模型、规则执行次序、数据消重策略三个方面对RDFS推理并行化算法进行了优化设计,显著地提升了算法的执行效率。根据底层并行化计算平台的不同,设计并实现了两种RDFS并行化推理方案:基于MapReduce的并行化RDFS推理算法(YARM: Yet Another Reasoning System with MapReduce)和基于Spark的并行化RDFS推理算法(PRRS: A Parallel RDFS Reasoning System with Spark)。实验结果表明,在大规模Benchmark和真实数据集上,YARM和PRRS的执行速度比当前最快的基于MapReduce的推理引擎(reasoning-hadoop)快10倍以上,而且表现出了更好的数据和系统可扩展性。2)并行化OWL推理算法的研究。在RDFS推理算法的基础上,本文进一步研究了表达能力更强、逻辑更复杂、更广为使用的OWL Horst规则推理的并行化问题。针对OWL推理规则种类丰富、计算流复杂、迭代次数多、以及多趟计算任务间需要频繁共享和重用数据的问题,本文提出了一套基于Spark的并行化OWL推理技术和算法(PROS:A Parallel OWL Reasoning System with Spark)。PROS在4个方面对OWL推理进行了优化:1)在连接计算方面,采用广播变量和pre-shuffle优化技术,减少数据通信量,降低通信开销;2)在传递关系计算中,采用smart transitive closure算法减少迭代次数,提高执行效率;3)在owl:sameAs关系计算方面,采用统一表示技术,减少无用数据的产生,保证推理结果质量,提升计算速度;4)设计和实现了基于Spark的并行化OWL推理算法。实验结果表明,在大规模Benchmark和真实数据集上PROS的执行速度比当前最快的基于MapReduce的推理引擎快8-20倍左右,同时还表现出了良好的数据和系统可扩展性。
其他文献
本文对模糊控制技术和遗传算法进行了深入的研究,在此基础上建立了模糊控制技术在电热锅炉采暖系统中的应用模型。该模型采用模糊神经网络实现,根据模糊逻辑推理的思想分为五层
隐马尔可夫模型(HMM)是一种非常有用的随机过程模型,在计算机科学中占有重要的地位.该文提出了一种新型的由两个HMM组成的二元隐马尔可夫模型,将文本在切词的基础上转化成两
近年来,云计算技术得到迅猛发展,给诸多企业带来商业模式的转变,也给个人带来工作方式的改变。但是,不断发生的云安全事故,常常造成数据丢失的严重后果,给企业和个人带来严重
MPEG-2标准早在1990年12月MPEG-1标准基本完成之后就开始制定,到1994年11月新加坡会议之后,其编码输出码流的句法能够描述多点电视会议、工作站窗显示、异步传输模式网络视频
该文就数据挖掘中的关联规则挖掘进行了一些研究.研究内容主要包括:1.该文采用一种新的主要成分分析方法,发展出一个快速、有效的维归约算法,能够迅速降低高维数据仓库的维数,
该文首先分析和研究了Web服务及其相关技术如SOAP、WSDL、UDDI等.其次,在分析传统的分布式计算技术及其应用于Web环境中的局限性的基础上,提出了一个能够适应Web发展的基于SO
学位
红外警戒系统视景仿真平台由六部分完成:目标、背景、大气传输、干扰、传感器和视景生成,建立了辐射产生和传输的数学模型.通过分析海面的功率谱模型计算了海面的斜率,推导出了
工作流技术作为一个新兴的研究领域,广泛应用于生产制造、办公自动化、并行工程、电子政务等领域,是实现企业业务过程建模、优化、过程管理与集成,最终实现业务过程的自动化的核
该论文首先分析了影响网络生存性的主要因素及提高网络生存能力的一般方法,并从不同用户和恢复时间对业务影响的角度给出了网络生存性的要求,讨论了与网络生存性有关的各种属
首先,论文详尽、深入的分析了UML建模语言的产生、发展、内容以及成为一种面向对象标准建模语言过程.然后从数据库建模有角度上比较了ERD和UML优缺点,研究了UML数据库建模方