云计算环境下的多数据集连接优化

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ABCDEFGHIJKLMN100083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“大数据”时代的到来,加快了云计算技术的发展和推广,众多涉及海量数据处理的云平台蓬勃涌现。云计算技术已逐步发展成熟,并深入人们生活、工业和研究的各个方面。MapReduce是一种已广泛运用到云计算数据处理的并行编程模型,如何使得MapReduce支持关系模型数据库进行复杂的数据处理已吸引不少企业界和学术界的研究。在大规模数据分析中,复杂处理要求越来越多,数据连接、查询信息往往跨越多个数据集。现有的基于MapReduce的多表连接机制多采用串行级联方式实现,将多表连接分为多次两表连接。该模式产生大量的中间数据,需要进行多次数据传输,效率较低。因此,改善多表连接方式、提高多表连接效率成为基于MapReduce数据处理研究的一个亟待解决的问题。本文首先介绍了云计算的相关技术、Hadoop平台、HDFS和MapReduce编程模型,然后在此基础上分析云环境中多数据集连接的实现和研究现状,并提出基于二维节点矩阵的分级多表连接模型TD-HMJ (Two-Dimension node matrix based Hierarchized Multi-Join)。 TD-HMJ首先设置<key, value>对中key为元组结构,通过一次Map过程处理所有连接属性;然后建立二维Reduce节点矩阵,以一对一或一对多的方式传输中间结果;再进行多组3(2)表并行连接;最后通过多级Reduce过程实现多组间连接。实验表明:TD-HMJ有效减少了多表并行连接时的数据传输量,缩短了多表连接时间,提高了连接效率。
其他文献
随着软件行业快速的发展,国内外的软件企业对软件的管理日趋成熟。软件成本估算越来越受到这些企业的重视。从软件自身的因素考虑,软件规模是软件成本最重要的组成部分。因此正
利用脑肿瘤图像处理技术进行计算机辅助诊断,不仅能够大幅度提升医生对脑肿瘤患者进行颅脑检查的效率和准确度,而且对于提高脑肿瘤患者的治愈率和存活率也有着重要的临床意义
无线传感器网络是由大量资源受限的传感器节点通过无线方式自组织构成的网络。它能够应用在恶劣甚至人们无法靠近的危险环境中,如防恐、野生环境监测、军事侦察、地震探测、矿
云技术的快速发展使得人们能够越来越方便的获得计算和存储资源。而智能手持设备的普及,使得人们能越来越方便的获取和产生数据,由于智能手持设备本身的局限性,使得人们越来越多
森林是自然场景的重要组成部分,森林场景的模拟在虚拟现实领域中占有重要地位,但由于森林场景中树木模型复杂、数量众多,且树木受风力作用后的动态效果涉及到复杂的物理力学系统
随着国家信息化建设的推进与发展,信息安全成为信息化平台与信息系统必须要考虑与面对的问题。用户在享用信息化带来的工作效率提升的同时,伴随着个人信息被盗用,个人隐私被的风
作为情感计算重要分支的语音情感识别,通过利用计算机及其它辅助设备分析和提取语音信号的情感特征参数,进而分析情感状态及状态的变化规律,从而更大贡献地提高人机交互技术的智
目前的许多软件系统需要为客户提供不间断的服务,软件在线演化技术因此成为当今软件维护领域的一个重要研究课题,能否提供不间断的服务正在成为人们衡量软件系统的一项重要指标
获取物体的三维结构和三维信息在工业测量、产品控制、物体识别、逆向工程等多个领域中都有广泛的应用,也因此有很多关于三维重建的方法,之前关于该方面的研究主要集中于基于点
文本聚类作为数据挖掘领域的主要分支之一,在许多领域占据了重要的地位。人们在处理数据时,经常遇到一些没有标签的数据,而人们往往需要了解这些数据间的关系,以便应用到实际情况