基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究

被引量 : 0次 | 上传用户:opentv2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义Web是Tim Berners-Lee提出的下一代互联网远景,通过引入了哲学领域本体的概念,使得计算机能够理解Web上的资源,并能实现计算机之间的语义信息共享。在世界万维网联盟(World Wide Web Consortium, W3C)提出的语义Web体系结构中,基于SPARQL的资源描述框架(Resource Description Framework, RDF)数据查询、基于描述逻辑的Web本体描述语言(Web Ontology Language, OWL)一致性检测推理和基于语义Web规则语言(Semantic Web Rule Language, SWRL)的OWL本体规则推理构成了语义Web领域的研究核心。然而,随着语义Web技术的不断快速发展,本体数据已呈现出大规模性、高速增长性、多样性等大数据特性。然而,传统的本体数据查询与推理工具由于设计运行于单机环境下,不可避免地存在计算性能和可扩展性不足等问题,影响了语义Web技术的进一步推广应用。近年来,云计算因其具备高性能、易扩展的海量数据存储和计算能力已经成为产业界和学术界在信息技术领域的最新研究方向之一,其中开源Hadoop云计算工具已成为当前大数据处理的事实标准。目前,国内外研究人员已开始将Hadoop关键技术引入语义Web研究领域,以探寻分布式环境下的高效率本体数据查询与推理方法,并已逐步形成了以语义Web和云计算技术相结合的新研究方向,但其研究仍然处于起步阶段,存在许多关键问题尚待解决。本文通过结合云计算和语义Web理论和关键技术,研究基于Hadoop的本体数据查询与推理并行化方法,为实现面向大规模语义Web本体的数据管理云服务奠定理论研究基础。主要研究内容和创新性成果包括以下五个方面:(1)以W3C提出的语义Web体系结构为基础,结合云计算Hadoop关键技术特性,提出了一种大规模语义Web本体数据查询与推理云计算框架。首先,对该框架进行了功能层级划分,自底向上分别由物理层、存储层、数据层、逻辑层、接口层、网络层和应用层组成。然后,基于本体查询与推理理论,设计了核心的逻辑层由数据预处理器、数据适配器、查询与推理分析器、查询与推理计划生成器、MapReduce SPARQL查询引擎、MapReduce SWRL规则推理引擎和MapReduceTableau推理引擎构成。该框架的提出为实现高性能、易扩展的语义Web数据管理云服务提供体系结构和数据交互流程支持和借鉴,为进一步研究其中的关键技术理论奠定基础。(2)基于语义Web中RDF三元组数据特性和基于描述逻辑的OWL本体描述语言形式化语义,结合HBase基于列的数据存储模式特性,提出了由三个HBase数据表T_OS_P、T_PO_S和T_SP_O构成的本体数据分布式存储策略,分析了在进行基于MapReduce的本体查询和推理任务时的数据检索机制,并通过与现有的数据存储策略进行对比和分析,论证了本文提出方法能够在本体数据存储空间开销和检索性能方面实现较好的平衡。(3)基于SPARQL语法和形式化语义,结合MapReduce键值对的计算特性,提出了SPARQL复杂组图模式在MapReduce环境下的分布式查询方法。首先提出了SPARQL复杂组图模式查询的相关解析模型定义。然后提出了基于MapReduce的SPARQL复杂组图模式查询任务生成算法,实现了查询任务数的优化,并以此为基础,提出了在map和reduce函数中的SPARQL复杂组图模式分布式查询算法。最后,通过使用语义Web研究领域广泛采用的SP2Bench本体测试数据集和标准测试语句,对提出方法与现有的Jena、Sesame和RDF-3X查询引擎进行了对比实验和可扩展性实验。实验结果表明,提出方法在面向大规模RDF数据的SPARQL复杂组图模式进行查询时,其计算性能和可扩展性均优于传统的单机环境下运行的查询引擎。(4)基于OWL Lite本体所对应的描述逻辑SHIF语义及其Tableau推理算法,结合MapReduce键值对的数据计算特性,提出了基于MapReduce的OWL本体一致性分布式检测推理方法。首先定义了OWL本体一致性检测的相关解析模型。然后提出了基于MapReduce的OWL Lite本体数据划分方法和分布式Tableau推理算法。最后通过使用LUBM本体测试数据集,对提出方法与现有Pellet、RacerPro和HermiT推理引擎进行了对比实验和可扩展性实验,证明了提出方法在进行大规模OWL本体的一致性检测推理时,在计算性能和可扩展性方面均优于传统单机环境下运行的描述逻辑推理引擎。(5)基于SWRL规则语法和形式化语义,结合MapReduce键值对的数据计算特性,提出了基于MapReduce的SWRL规则分布式推理方法。首先提出了SWRL规则推理的相关解析模型定义。然后提出了基于MapReduce的SWRL规则推理计划生成算法,实现了推理任务数的优化。其次,为保证推理的可判定性,提出了DL-safe限制下SWRL规则在map和reduce函数中的分布式推理算法。最后通过使用LUBM本体数据集和自定义SWRL测试规则,对提出方法与Jess和Pellet推理引擎进行了对比实验和可扩展性实验,证明了在处理大规模OWL本体的SWRL规则推理时,提出方法较传统规则推理引擎具备更好的计算性能和可扩展性。
其他文献
我国社会主义法律体系的形成对立法质量的提高提出了新的要求。地方人大常委会立法审议程序对于保障立法权力的正当行使,实现立法质量的不断提升无疑具有重要的意义。本文以我
知识管理正在逐渐成为管理理论和实践的新方向,个体员工的知识如何能够转化为组织知识,对企业核心竞争力起着重要作用。在实际工作中,员工向其主管进行的上行知识传递是组织内部
销售人员控制理论(SMCS)起源于20世纪80年代初(Anderson,Oliver1987;Eisenhardt1985; Jaworski1988; Ouchi1979),经过国外二十多年的发展,现在已经有了较为成熟的研究框架和方
什么是幸福?怎样才能得到幸福?这是许多人终生思考的问题。而近几年,由于国家各方面的飞速发展和对社会主义和谐社会的深入开展,人们在生活水平不断提高的同时,越来越多地思考自身
科学采矿是在安全、环保前提下,最大限度地高效采出煤炭资源的开采技术,是人类认识自然和开发利用自然资源理念的升华,是采矿技术、发展方式,乃至煤炭行业命运的重大变革,是一种全
高光谱探测作为一种新型的遥感探测技术,能够获取目标在不同波段的反射特性,具有较高的光谱分辨率,通过精确提取目标光谱曲线,可以实现目标的探测分类识别。本文重点研究了高光谱
不可否认,外商直接投资持续大规模地流入有效地促进了我国经济地发展。然而一直以来,引进外资主要目的是为了解决国内建设资金不足等问题,因此外资进入的门槛相对较低,对于外资使
自改革开放后的30年里,我国的文化产业取得了飞速的发展,这种发展,不仅仅是文化产业增加值的增长、文化产业理论研究的丰富,也是作为建构在文化产业实践、文化产业政策变迁、文化
光学自由曲面元件的出现给光学技术的发展注入了新的活力,其不但简化了光学系统的结构,也使得成像质量得到了很好的改善,因此得到了广泛的应用。但随着光学自由曲面面形越来越复
本论文的研究目的是能够为家具产品设计提供一种较为科学的指引——使家具设计实务能够根据要设计的产品风格,寻求该类风格产品的构件之间搭配的经典造型框架,以及主要的构件装