【摘 要】
:
随着信息化的推进和计算机技术的发展,数据密集型应用不断的产生,大量甚至海量的数据被分析计算以获取具有某种价值的信息。构建数据仓库系统,对海量的分散的异构的数据进行
论文部分内容阅读
随着信息化的推进和计算机技术的发展,数据密集型应用不断的产生,大量甚至海量的数据被分析计算以获取具有某种价值的信息。构建数据仓库系统,对海量的分散的异构的数据进行集成,是企业机构分析获取更多有用信息的一种方式,传统数据集成在处理源数据时需要设置一个中央节点,对分散异构的源数据进行连接汇总等集成操作,并将集成数据存放至分布式的数据仓库中,这种模式在数据海量的环境中,中央节点的计算是集成的瓶颈,同时产生大量的数据迁移,这种模式显然是低效的,无法满足海量数据环境中的数据集成需求。本文为了解决海量数据给数据集成带来的挑战,参考MapReduce的分布式并行计算模型,提出了一种分布式并行数据集成方法,重点关注数据集成过程中的连接、汇总等操作,将数据集成计算分布至源数据节点,并行地执行,消除了在中央节点进行计算的限制,并且根据连接操作在MapReduce函数中的执行方式不同提出了四种不同的集成策略,给出了一种I/O代价模型,并据此对四种集成策略进行评价选择。同时设计了适用于对集成后数据并行分析处理的数据布局策略,重点关注于集成后的数据在数据仓库中的各个节点的分布位置、数据量的均衡性以及数据值域分布的均衡性,尽可能为后续分析提供更优的数据位置和更好的并行性。本文基于Hadoop环境,实现了论文提出的分布式并行数据集成算法,并设计了一系列的数据集成实验,验证了本文提出的集成策略的可行性与策略I/O代价的正确性,并且模拟了数据集成后的布局策略,得到了数据均衡分布的结果,与期望结果相匹配。本文提出的分布式并行数据集成方法是MapReduce模型在海量数据分析的另一类应用,是分布式计算在数据集成方向的一种实践,解决海量数据集成中的并行性差和数据迁移代价大的问题,具有理论和实践上的探索意义。
其他文献
樟子松(Pinus sylvestris var.mongolica)人工林是我国辽西北风沙区三北防护林的重要组成部分,对该地区的防风固沙和固碳增汇起着至关重要的作用。经调查发现,在三北防护林地区樟子松林中存在多种形式的人为干扰活动,例如放牧、农耕、人为采摘等,对当地的森林生态系统造成了一定的影响,并且成为限制樟子松人工林发展的重要因素。土壤有机碳是全球碳库中不可或缺的一部分,土壤有机碳分解主要表
植物对高温胁迫能产生不同水平上的响应,然而木本植物在转录和代谢水平上如何响应高温还不清楚。毛白杨(Populustomentosa)是常见的城市绿化树种。本研究以毛白杨实生苗为研究材料,设置25℃常温对照和45℃高温处理,对叶片进行了细胞结构、生理指标、转录组及代谢组等水平上的测定,并对筛选的关键基因构建载体、遗传转化拟南芥和杨树,主要取得了以下结果:(1)通过扫描电镜观察发现杨树在高温组中(45
随着时间序列数据挖掘技术的广泛应用,时间序列的相似性度量方法研究是一个重要的研究方向。针对传统的直接利用时间序列相关系数(皮尔逊、斯皮尔曼)和距离(欧氏距离、动态时
基于动态目标的多移动机器人围捕问题是当前多机器人控制领域的热点之一。本文基于预测-规划-执行的多机器人围捕算法思想,将围捕问题分解为基于动态目标运动状态的轨迹预估
本文选取马来西亚著名语言学家萨兰·考尔·吉尔(Saran Kaur Gill)2014年出版的学术著作《多民族马来西亚面临的语言政策挑战》(Language Policy Challenges in Multi-Ethnic Malaysia)中第5-6章的翻译作为研究对象。翻译此书的目的之一是为我国的语言政策规划者和研究者提供有研究价值的学术材料;目的之二是笔者可以将所学的翻译理论和翻译技巧学以
本论文工作通过在三苯胺对位引入具有电化学活性的噻吩、吡咯以及二茂铁环的方式对三苯胺化合物进行修饰。成功制备出了一系列新型三苯胺衍生物单体:4,4,4"--三噻吩三苯胺(PT
随着工业时代向科技时代的迈进,二十世纪下半叶以来,大量废旧厂房处于城市重要路段无人问津。拆除这些废旧厂房无疑需要耗费大量人力、物力和财力,对其进行改造与再利用,是当今绿色设计新理念的体现。如何处理这些废旧厂房或者对其进行设计改造和再利用,已成为现代都市日益凸显的难题。本文通过查阅各类建筑设计及其相关资料,借鉴国内外老工业基地改造再利用的成功案例与经验,通过制定与废旧厂房相适应的改造策略与方法,遵循
智能电网建设是根据我国能源分布与负荷消费地域分布特点,适应我国当前和未来社会发展所采取的电网发展方式,对各类能源,尤其是大规模风电和太阳能发电的计入和送出适应性强,
多机器人系统是在单个机器人的基础上,通过一系列通信和协同算法,实现各个机器人信息共享、协同合作的复杂系统。它能够解决很多单机器人无法解决的问题,具有单机器人系统不
在知识经济化和全球化的大背景下,新世纪我国更加关注学生多样化的学习,对人才有着更高要求,强调公民应具备面对复杂任务时创新性思考及有效解决问题的能力,因此教育阶段要对学生进行针对性的培养。《普通高中地理课程标准(2017年版)》提出应重视问题式教学。问题式教学现已被广泛运用于课堂教学中,在“发现问题”“解决问题”的过程中进行教学,问题是教学的核心,因此问题的设计至关重要。在问题式教学课堂中,教师自身