大规模RDF语义数据存储查询优化与系统实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:wojiushishashou47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Web诞生到发展至今,万维网已经成为人们获取信息的主要渠道之一。为了让计算机理解万维网上的内容,语义网应运而生。语义网对现有Web增加了语义支持,是现有万维网的变革和延伸,目标是使机器理解信息的含义,使得高效的信息共享和机器智能协同成为可能。一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础。越来越多的应用需要对语义数据实现高效的存储与查询;另一方面,语义数据的爆炸性增长和大数据技术的快速发展,对语义数据的存储与查询技术提出了新的挑战。传统的基于关系型数据库的语义数据存储与查询技术已经无法满足大规模语义数据的存储与查询需求。针对大规模RDF语义数据的存储与查询问题,本文以OpenRDF Sesame框架为基础,优化了以HBase作为持久存储层、Redis存储热点数据的分层式RDF语义数据存储查询系统,在存储层以属性表作为RDF语义数据存储结构,替代了三元组表存储结构;在查询层增加哈希转换层,避免了频繁查询哈希表带来的查询性能的降低。本文的研究工作主要包括以下三个方面的内容:(1)基于属性表的RDF数据存储机制的优化和实现。针对三元组表进行存储管理所出现的查询效率和存储空间利用率低、可扩展性不足的问题,研究提出基于属性表的RDF语义数据存储方法,其中,利用布尔矩阵分解算法(ASSO)进行最小阈值的最优选取,并且针对大规模的语义数据,设计并实现了基于Spark框架的并行化频繁项集挖掘算法来构造属性表。实验结果表明,基于属性表存储结构的RDF数据查询系统在查询执行速度上有所提升,其查询性能优于三元组存储结构,两者相比,查询速度提高0.2倍到1倍。(2)基于哈希转换的查询技术优化。针对本课题此前实现的分层式RDF语义数据查询系统在查询过程中出现的频繁查找哈希表进行哈希转换、造成查询性能下降的问题,提出了在查询部分增加哈希转换层的新方案,仅在查询的始末阶段进行哈希转换,从而避免了在查询过程中频繁查询哈希表。实验结果表明,通过查询层的哈希转换优化,在查询执行速度上提升了 1倍到7倍,同时表现出了更好的可扩展性。(3)在以上两方面优化技术研究基础上,进一步设计实现了一个大规模语义数据存储管理和查询原型系统。原型系统的实验表明,本文在存储层与查询层所研究提出的优化技术方法效果良好,并具有良好的系统可扩展性,可有效存储管理和查询大规模RDF语义数据。实验表明,优化后的大规模RDF语义数据存储查询系统性能比原来的Rainbow系统提高1倍到8倍。
其他文献
1997年香港回归祖国后一国两制的实践是建立在《中华人民共和国香港特别行政区基本法》(以下简称《基本法》)基础之上,该部《基本法》是依据我国《宪法》制定的,它确立了中央
科学合理地评价大学生就业能力,使学生正确认识自身的就业素质,有利于大学生毕业后成功就业。在借鉴现有研究的基础上,构建了一个涵盖7个一级指标、25个二级指标的大学生就业
《董事会》杂志2004年创办以来,独树一帜,以专业的精神、全球的视野,专注于我国公司治理和董事会建设的研究和推广,为董事会战略决策、治理机制创新、竞争力增强提供了借鉴和
现有技术中,很多领域的材料、构件或装置等,在实际使用前,需要进行稳定性测试,以确定其质量的可靠性,常用的试验设备为疲劳试验机。疲劳试验机是在常温下测量金属或者是零部
目的:研究宫内慢性缺氧对成年子代小鼠肾脏结构的影响,并初步探讨宫内慢性缺氧诱导成年子代肾脏结构异常的可能机制。旨在为相关“胎源性”疾病的预防提供一定的实验和理论依
目的旨在探讨内质网应激在卵巢癌顺铂化疗耐药中的作用及其调节的分子机制,从而探讨内质网应激在卵巢癌顺铂耐药中的作用,为临床研发有效逆转卵巢癌顺铂耐药的新方法开辟新思
御膳房是皇宫建筑的组成部分之一,需要使用大量的火源,相对火灾危险较大。因此,对于御膳房的建筑设计和位置选择,是十分重要的。明代的御膳房是设在金銮殿西配殿两侧的,即武
目的分析卵巢早衰疾病患者采用血清抗苗勒管激素联合性激素检查对病情进行预测的临床价值。方法选取在该院就诊的卵巢早衰确诊患者52例作为研究组,再抽取同期体检健康女性52
当前,我国迫切地需要改善水体环境,提升水循环能力。但是,我国的与水环境治理相关技术仍然存在缺陷,成熟度也不高。为了提升水环境的治理效果,本文有针对性地提出了生态型水
专业科技类出版社以服务专业科技领域见长,随着我国电商行业迅猛发展,专业科技类出版社天猫旗舰店业务也逐渐壮大,但发展中尚存一些制约因素。本文基于对专业科技类出版社天