一种基于Hadoop的RDF数据划分与存储研究

被引量 : 0次 | 上传用户:drygps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义Web是当前万维网的一种扩展,通过为万维网的文档添加可被计算机自动识别的语义信息,促进计算机之间及其与人之间的协同工作,实现数据的自动化处理,从而提高信息检索的效率。但随着语义Web数据量的急剧增长,RDF数据的存储和检索面临严峻的挑战,幸运的是,Hadoop平台的MapReduce并行框架和分布式数据库HBase能够满足海量数据的查询与存储需求,本文基于Hadoop平台对RDF数据的存储以及加载任务进行有益的研究,主要研究工作及成果如下:(1)设计一种以HBase为存储介质、基于OWL的RDF数据存储方案。该方案采用HBase作为存储介质,基于OWL本体文件中定义的语义信息设计多张表以存储RDF数据。首先设计NOSClass表和NOSProperty表用于保存OWL语义信息,为推理和查询优化操作提供依据;接着为本体的每个类设计S PO和O PS两张表,用以保存该类的所有三元组信息;最后设计NOSType表和NOSInstance表用于保存谓语为"rdf:type"的所有三元组数据。(2)设计一种高效的并行式解析、划分和加载RDF数据的算法。首先使用一个MapReduce任务并行解析RDF数据并按三元组的主语所属于的类进行划分;然后逐个将划分的三元组文件转换成相应的HFile文件;接着使用Bulk Load命令将HFile文件逐个加载到HBase集群中;最后在Hadoop平台上验证本文提出的并行式解析和加载RDF数据算法的有效性。(3)本文结合选择度估值和三元组模式分组两种查询优化方法的特征,提出一种混合优化方法,先使用三元组模式分组方法将输入的三元组模式划分到七种类型中,对每个类型里的多个三元组模式使用选择度估值方法进行排序,从而生成查询执行计划,最后在Hadoop的单机伪分布式平台上验证本文提出的混合优化方法的有效性。
其他文献
翻开近代传播媒介的发展历史,从书籍、图画到电影、电视,再到多媒体和数字游戏。科技的进步在传播媒介的每一步发展变化中都担任了相当重要的推进角色。迈入二十一世纪后,随着计
随着社会各行各业信息化建设水平的不断提高,国标舞评分系统建设受到越来越多热爱舞动人士的关注和重视。国标舞评分系统始终坚持“实用、可靠、高效”的理念,避免繁琐的流程,提
居住权是人类生存与发展的基本权利。“住有所居”既是人类生存发展的基本要求,也是人类社会发展的基本目标。住房问题是工业化、城市化的产物。中国作为一个人口大国,人均占有
英语考试的书面表达在历年的高考试卷中都占有较大的比分,而写出一篇优秀的英语作文对于多数中学生来说都难以做到。因为英语写作是各种综合技巧的体现,需要学生有一定的审题
学术界对严歌苓作品的研究很大程度上是从关注女性主义理论或文艺理论的角度入手,从中剖析她所刻画的女性形象在中西方不同文化背景下,对女性意识和身份认同等问题。然而对女性
近年来,随着语义网技术的不断发展与进步,用来描述语义网资源的资源描述框架(RDF)越来越多地应用于各个领域,RDF的广泛应用使得其数据量急速增长,如何高效地管理海量RDF数据
无人机在军事和民用上都具有广阔的应用前景,近年来已成为全球范围内的研究热点之一。实现自主导航是无人机能够在实际中应用的前提。相比基于惯性传感器和全球定位系统的传
毛泽东的宣传思想,作为毛泽东思想的组成部分,在指导、推动党的宣传事业的发展上起过非常重要的作用。毛泽东最早提出党的宣传问题并给予高度关注,而且在实践中总结了一系列的宣
医学图像配准是医学图像分析的重要组成部分之一,针对肺部CT图像的配准算法,有助于从肺部CT图像中发掘肺部组织随呼吸运动变化的规律。近年来,深度学习方法在医学图像领域崭露头角,将深度学习方法应用于肺部CT图像配准是一项非常具有前景的研究。本课题研究基于卷积神经网络的肺部CT图像配准算法,使用卷积神经网络学习稠密光流配准方法的位移场,通过空间变换层对浮动图像进行变换,然后根据变换后的图像与参考图像的损
本文尝试以社会工作理论中的生态系统理论为基础,以南京市金德松老年人服务中心为研究对象,深入NGO实习调查,并选取了20名该机构工作人员和服务对象进行访谈,获得了大量的第