基于Spark的大数据处理可视化工具的设计和实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:wangzhy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的快速发展,互联网中产生了大量的数据。如何快速、有效的从这些数据中清洗、挖掘出有价值的信息已成为现代社会的迫切需求。在此背景下,各种大数据处理平台应运而生。Hadoop的出现使人们关注到MapReduce这一计算模式,Spark通过引入RDD的数据模型和基于内存的优势,能够更好的处理大数据,并且在迭代计算方面也优于Hadoop。用户使用Spark时,需要学习Spark相关的专业知识。同时,有的企业在Spark集群硬件资源方面存在差异,集群异构性比较明显,而Spark默认的两种任务调度算法未考虑异构Spark集群下节点的能力差异。因此,论文提出并实现了一个基于Spark的大数据处理可视化工具,采用B/S的设计模式,并提出了 Spark的异构任务调度算法。论文的研究工作包含两个部分:(1)提出了一种基于Spark大数据处理的可视化工具,将数据处理流程化,设计和实现了基于Web的数据处理的流程,用户通过拖拽图片来创建数据处理的逻辑过程,包括数据源的定义、数据处理的计算算子或者Spark SQL语句、数据结果的存储,完成数据处理的流程设计。同时,针对Web上生成的流程文件,设计和实现了基于Spark的计算引擎Jar包,用来解析该文件。(2)提出了 Spark的异构集群任务调度算法,考虑到Spark集群的异构性,将Spark任务和节点抽象为一个二分图,根据任务和节点的延迟参考匈牙利的二分图算法,实现Spark的异构集群任务调度。论文对基于Spark的大数据处理可视化工具进行了实验,对系统从功能、性能和算法有效性等方面进行了相关测试。结果表明,论文提出的基于Spark的大数据处理可视化工具能够满足用户的基本需求。
其他文献
在全球化的背景下,地方新闻的翻译是译入语读者了解某地区经济、政治、文化等信息的基本渠道,也是中国各地文化对外传播的有效手段。优秀的翻译可以帮助当地政府和百姓塑造和
由于口译在国际活动及跨文化交流中发挥着越来越重要作用,人们对口译的研究也愈发深入与广泛,现场口译的译员表现也越来越受到关注。2013年3月17日上午,十二届全国人大一次会议
随着我国城市化与农业现代化水平的不断提高,我国的农业土壤环境质量逐渐恶化,且已严重影响到了我国的农业生产和粮食安全。我国农业土壤环境保护领域社会公众的参与程度不足
本研究旨在探索听力策略教学对英语专业学生英语新闻听力理解的影响,为英语专业学生的新闻听力策略教学提供一些实证性数据和教学启示。本研究的研究对象为来自河北师范大学60
采用盆栽试验方法,研究了不同组分的腐植酸复合肥对辣椒生长及其生理特性的影响,以筛选出适于辣椒生长的最佳肥料方案。试验结果表明,不同组分腐植酸复合肥处理与等养分无机
自上个世纪八十年代以来,随着中国改革开放不断深入,对外经济、文化交流日益频繁,口译作为沟通的桥梁在国际交往中发挥着越来越重要的作用。语言是文化的载体,在口译过程中,
在铁路运输生产管理中,电力是不可缺少的重要能源之一,铁路供电处事负责承担铁路局牵引供电、变配电、电力等工作,它是铁路局的重要组成部分。铁路运输目前还是我国最为主要的运
针对传统的A356铝合金,添加稀土元素是改善其微观组织并提高力学性能的有效途径。本工作通过示差扫描量热分析(DSC)、X射线衍射(XRD)、扫描电镜(SEM)等分析手段来研究稀土Er
土壤微生物是土壤生态系统重要的组成部分,在土壤有机物分解、养分循环和土传病害发生过程中发挥着引擎的作用。农田土壤微生物的群落结构主要受农田管理方式的影响,其中作物
随着国家电网朝着智能化的方向发展,将具有全面感知能力、信息传输安全可靠、具有智能处理特征的物联网技术应用到智能电网中,使之向数字化和自动方向发展,以提高输变电设备信息