云数据库中基于MapReduce的范围相似连接的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:peng23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。  在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。因此,如何解决连接查询问题成为云数据管理系统中的核心问题之一。  本文针对该问题,基于当前主流的MapReduce计算框架和Hadoop云计算平台,探讨了连接查询中的范围相似连接的实现方法,并在研制的Muldas云数据管理系统中实现了对连接查询的支持,最终通过实验对各方法进行了验证。具体包含以下几个方面:  设计并实现了针对范围相似连接的多种连接查询算法,包括Map IndexSimilarity Join、Reduce Index Similarity Join和Bucket SimilarityJoin算法。其中,前两种算法仅针对连接属性上存在索引的情况,而BucketSimilarity Join算法则同时还支持普通属性上的范围相似连接。  在核高基课题组研究开发的非结构化数据管理系统Muldas上,设计了类SQL查询语言——MQL查询语言,实现了查询处理部件,提供了对常见的DDL和DML语句的支持,其中包括对范围相似连接的支持。  在Muldas系统上实现了上述范围相似连接算法,并通过实验验证了其在真实气象数据上的正确性及有效性。  
其他文献
半导体装备业是一个投资密集、技术密集、发展迅速、竞争激烈的产业。如今,半导体装备制造的过程正逐渐趋于标准化,使用一种将数个机台整合在一起的集束式制造设备作为标准化生
处理器设计的日益复杂和设计时间上的限制,使得更为有效地进行处理器性能分析和优化成为当代处理器设计者面临的重大问题和挑战。  硬件性能监视器是现代处理器芯片中提供的
计算机网络与电视网络的融合为数字电视带来了越来越丰富的应用,数字电视接收端系统设计也从传统的采用数字电视专用芯片的结构,逐渐向基于高性能通用计算机系统芯片的结构方向
概率模型检查在分析系统的可靠性、可用性等方面有非常重要的作用。在一些嵌入式控制系统或自适应系统中,运行环境是经常变化的。这些变化会导致模型的改变,也就需要我们频繁地
使用场景是近来音乐信息检索领域提出的一个新兴的音乐元数据(或称属性),而目前音乐使用场景有关的研究工作较少,且都处于初期探索阶段。本文主要分析了从网络上采集的音乐数据并
随着信息技术、互联网技术的飞速发展,互联网上已存在着大量分散无序、形式多样、内容繁杂的网络资源和教学资源。在教学资源的建设和管理方面存在着:资源良莠不齐、重复建设
具有真实感的三维人脸合成是计算机视觉与计算机图形学领域具有挑战性的研究课题之一,并因为其在工业界的多个领域中的良好应用前景而被广泛研究。三维人脸合成技术有多个分支
传统系统安全的目标在于构建具有防御机制的系统,以使得系统可以免遭攻击者的非法入侵。然而实际经验表明,网络中时刻都存在大量的新的和未知的攻击,而且大多数系统中仍然存
软件测试作为保证软件质量的重要手段,一直是计算机工程领域科学界关注的一个重要问题,已经成为软件生命周期中的重要组成部分。其中测试用例的设计与生成是决定软件测试效果的
近年来,随着信息化建设的稳步推进,空间信息应用已逐步深入到人们的日常生产和生活当中,人们在受益于信息技术进步的同时,对空间信息服务提出了更高的要求,而传统的信息访问模式在