基于Kubemetes的大数据流式计算Spark平台设计与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zygqqx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云平台上是一种典型的应用场景,面对海量大数据的增长,传统云平台构架和处理方式无法有效应对大数据的处理环境。作为新兴的轻量级虚拟化容器技术,以Docker容器作为基本单位为开发人员提供快速构建、部署和移植分布式应用,极大的简化开发者的部署运维流程,降低服务器成本。Kubernetes是Google自动部署和管理大规模Docker容器应用的开源系统,对容器化的应用提供资源调度、自动部署、服务发现、弹性伸缩等一整套功能,对大数据分布式计算框架Map-Reduce也提供良好的支持。当然,Docker有关安全、存储等方面还有不足之处,在成为云平台构建基础上还处于快速发展的阶段。本文重点设计实现了以虚拟化Docker容器作为大数据的底层承载平台,以Kubernetes作为容器管理、调度系统,部署了基于Dokcer容器的Spark大数分布式计算框架。容器化的大数据平台可以极大的提高资源利用率和计算并行度,简化了运维管理成本,并能够应对实时负载,弹性伸缩Spark计算节点。针对基于Kubernetes部署Spark集群,本文的主要工作如下:(1)实现Docker容器跨主机通信。Docker本身不具备跨主机通信能力,利用flannel建立一个叠加网络(Overlay Network),实现了不同物理主机上的容器通信的能力。(2)基于Kubernetes系统设计实现了Spark集群。本文分析了Spark集群的通信机制,使用dockerfile构建Spark镜像,设计实现了基于kubernetes平台的大数据流式计算Spark集群,可以快速部署并横向扩展Spark集群。(3)设计实现了基于负载的Spark节点弹性伸缩。针对Docker容器的资源监控,采集各个Node节点上的容器资源使用数据,根据实时负载对Spark节点执行响应的伸缩活动。(4)对该平台进行了部署和测试。实验表明,使用Docker容器构建Spark框架,能够提高资源利用率、简化运维流程等,验证了该系统的可行性和有效性。
其他文献
环境的不确定性增加了企业遭遇危机的可能性,而在危机的处理中,速度是关键,由此提出了对于以增强组织快速反应能力为特点的企业组织柔性能力的考验。本文在分析了危机与组织
随着金融市场不断自由化、开放化、多元化和规范化,我国城市商业银行面临巨大的挑战。2008年次贷危机之后,金融市场风险急剧增加,由于我国城市商业银行长期处于被保护状态,风
2006年2月财政部在充分借鉴国际会计准则的基础上,结合我国实际,发布了新会计准则体系。这套准则体系的建立标志着我国会计体系与国际准则达到较好的协调。文章在分析了我国
建筑行业迅猛发展的今天,土建工程的规模也日益扩大,市场竞争也越来越激烈,对土建质量的要求也上升到一个新的高度。要保证工程的质量,就要对整个工程施工环节严格把关,做好
空气负离子与大气环境污染有着十分密切的负相关性,并且对人类的身体健康具有重要作用,人们已将空气负离子浓度作为评价一个地区空气环境质量好坏的重要指标。它对于生态旅游
针对FPSO油气泄漏引发的火灾风险,建立热-结构耦合分析模型,采用ANSYS Workbench软件对工艺区设备泄漏、火灾事故及灾害下结构响应进行数值模拟,重点分析工艺处理模块Ⅰ区设
<正>作为中国本土新能源汽车市场的"一哥",北汽新能源逐步成为中国汽车产业转型升级的先锋雾霾的产生除了燃煤这个"罪魁祸首"外,汽车尾气排放也脱不了干系。有实验显示,雾霾
目的:探讨急性心肌梗死(AMI)合并2型糖尿病(T2DM)患者住院期间不同心、肾功能级别对其远期预后的影响,及脂蛋白(a)和尿酸(UA)水平与心、肾功能的相关性。方法:选择我院心内科20
面对历史、现实和国内外的人权状况,发现不论是宪法上对权利的规定还是公民内心对自由和权利的渴望,都与实际相去甚远。尤其是公民在政治经济上应该享有的选举权、平等权、收
<正> 李大钊同志不仅是“五四”运动卓越的领导人,最早在中国传播马列主义的革命先驱,我们党的创始人和早期优秀领导者之一,而且是我们党最有革命气节操守的典型代表之一。皖