大规模RDF数据的并行划分与分布式处理系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:i_love_snj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于RDF(Resource Description Framework)数据模型的灵活性和可扩展性,越来越多的社区将它们的数据以RDF的格式进行发布。因此,分布式存储和处理RDF数据已经成为一个热点问题。现有的分布式解决方案虽然取得了一定的成效,但大多集中在分布式存储结构的设计和处理流程的优化,在任务负载均衡和通信量最小化方面的研究较少。基于超图模型的并行遍历树划分与分布式处理系统(Par Triple Bit),提出一种高效划分和分布处理超大规模RDF图数据的技术。这种技术根据RDF数据的特性,采用超图模型对数据进行抽象,以超边数据的一部分作为基本划分块,然后采用遍历树划分方法并行的放置路径上的基本划分块,以保证实体间连接关系的完整性。在放置时制定了相应的策略来对计算节点进行选取,以保证各计算节点的数据负载均匀和任务负载均衡,并提出基于启发式的查询任务分解策略,以最简化查询分解。在分布式处理方面,采用MPI消息传输协议提供的异步和非阻塞通信模型来进行数据的交互,借助分块变长整形差值压缩方法和并行流水来减少通信量,提高交互效率。此外,还实现了无锁窃取调度方式来对查询任务进行调度,提高并行度。在中间结果的合并过程中,提出一种批量合并方式来减少合并过程中key值的比对次数,提高合并效率。Par Triple Bit与目前较好的集中式RDF存储系统Triple Bit和RDF-3X,分布式RDF处理系统Hybrid(unone-on、dirtwo和untwo-on)相比:数据划分方面,平均预处理时间快数倍,数据冗余度最低,数据负载最均匀;查询性能方面,超出三个分布式系统40%以上,超出两个集中式系统数倍甚至数十倍;可扩展性方面,随着计算节点数目的增加,查询性能呈线性或超线性提升;随着数据集规模的增大,查询语句的执行时间呈亚线性递增,因而系统的可扩展性较好。
其他文献
随着网络和智能设备的不断发展,互联网上的信息也越来越丰富和多样,人们可以在网络上获得各种各样的信息和服务,同时人们逐渐发现要在网上找到符合自己需求的东西也越来越麻
虚拟现实技术又称灵境技术,它是二十世纪末才兴起的一门崭新的综合性信息技术,它融合了数字图像处理、计算机图形学、多媒体技术、传感器技术等多个信息技术分支,从而大大推进了
分布式文件系统有效地解决了数据的存储和管理的难题,但却面临多用户并发访问数据的一致性问题,分布式锁机制为不同客户端正确访问服务器上的数据提供了保障。在多客户端同时
银行管理数据提取平台是根据银行工作的标准化、服务化、信息化、网络化、而建立的一种管理信息系统。银行的数据管理对象是金融行业大量的、随时更新的又需要高度保密的数据
有限单元法是一种有效的数值分析方法,是计算机辅助工程(CAE)的重要组成部分。随着工程问题复杂度的逐渐增加,CAD/CAE建模方法也在不断地发展。逆向工程是近几年发展起来的一种
混合云存储作为一种新型的数据存储模式,特别是随着大数据浪潮的到来,这一新型的数据存储模式已经逐渐被各行各业所接受、所使用。虽然这种存储模式看来潜力无限,但在实际使
目前,随着电子商务、物流行业的迅速发展以及国民消费水平的不断提高,网上购物规模逐年上升。相比传统购物方式,网上购物不仅具有方便、快捷、安全的优点,同时允许消费者对购买成
本文使用统一建模语言UML和统一过程RUP相结合的的面向对象软件工程方法学指导软件系统的设计与实现,将UML和RUP有机融合应用于项目--在线考试系统中。按RUP的核心工作流安排
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方
随着互联网络的迅速发展,网络信息成为最大的信息来源,如何从海量的网络信息中准确查找自己所需要的信息是搜索引擎需要解决的主要问题。而随着信息多元化的增长,需要为不同