论文部分内容阅读
从Web诞生到发展至今,万维网已经成为人们获取信息的主要渠道之一。为了让计算机理解万维网上的内容,语义网应运而生。语义网对现有Web增加了语义支持,是现有万维网的变革和延伸,目标是使机器理解信息的含义,使得高效的信息共享和机器智能协同成为可能。一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础。越来越多的应用需要对语义数据实现高效的存储与查询;另一方面,语义数据的爆炸性增长和大数据技术的快速发展,对语义数据的存储与查询技术提出了新的挑战。传统的基于关系型数据库的语义数据存储与查询技术已经无法满足大规模语义数据的存储与查询需求。针对大规模RDF语义数据的存储与查询问题,本文以OpenRDF Sesame框架为基础,优化了以HBase作为持久存储层、Redis存储热点数据的分层式RDF语义数据存储查询系统,在存储层以属性表作为RDF语义数据存储结构,替代了三元组表存储结构;在查询层增加哈希转换层,避免了频繁查询哈希表带来的查询性能的降低。本文的研究工作主要包括以下三个方面的内容:(1)基于属性表的RDF数据存储机制的优化和实现。针对三元组表进行存储管理所出现的查询效率和存储空间利用率低、可扩展性不足的问题,研究提出基于属性表的RDF语义数据存储方法,其中,利用布尔矩阵分解算法(ASSO)进行最小阈值的最优选取,并且针对大规模的语义数据,设计并实现了基于Spark框架的并行化频繁项集挖掘算法来构造属性表。实验结果表明,基于属性表存储结构的RDF数据查询系统在查询执行速度上有所提升,其查询性能优于三元组存储结构,两者相比,查询速度提高0.2倍到1倍。(2)基于哈希转换的查询技术优化。针对本课题此前实现的分层式RDF语义数据查询系统在查询过程中出现的频繁查找哈希表进行哈希转换、造成查询性能下降的问题,提出了在查询部分增加哈希转换层的新方案,仅在查询的始末阶段进行哈希转换,从而避免了在查询过程中频繁查询哈希表。实验结果表明,通过查询层的哈希转换优化,在查询执行速度上提升了 1倍到7倍,同时表现出了更好的可扩展性。(3)在以上两方面优化技术研究基础上,进一步设计实现了一个大规模语义数据存储管理和查询原型系统。原型系统的实验表明,本文在存储层与查询层所研究提出的优化技术方法效果良好,并具有良好的系统可扩展性,可有效存储管理和查询大规模RDF语义数据。实验表明,优化后的大规模RDF语义数据存储查询系统性能比原来的Rainbow系统提高1倍到8倍。