Spark性能数据收集分析系统的设计与实现

被引量 : 0次 | 上传用户:ssfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机信息技术的迅猛发展,分布式计算在行业内得到了大力发展,Spark作为目前非常流行的分布式计算框架,已经被开发者广泛运用于企业业务中。开发者希望了解Spark作业程序运行时集群底层的性能数据,从而掌握整个Spark集群的运行情况,找出系统瓶颈,从而进行性能调优工作,提高计算效率,减少任务运行时间。所以,开发一套Spark性能数据收集分析系统对于开发者进行性能优化显得尤为重要。本文对Spark性能数据收集分析系统的设计与实现做了详细介绍。本文首先对于用户需求进行了详细分析。之后根据功能性需求将系统的功能模块划分为配置与监控、数据收集、数据处理与数据分析四个方面。本文设计并实现了所有功能模块,最后设计了测试方案,给出了测试结论。本系统设计实现的Spark性能数据收集系统基于Akka架构,采用了主从节点的分布式设计思想,实现了分布式的性能数据收集处理功能。数据收集模块通过运行在子节点上的DSTAT监控工具来进行Spark性能数据的采集存储,保证了数据收集结果的正确性与实时性,同时这种设计模块便于开发新的系统服务,具有很高的扩展性。数据处理模块对于Spark运行日志与性能数据进行解析,并将两者的解析结果通过不同类型的统计图进行输出展示。数据分析算法对于集群进行状态划分,对资源空闲情况进行分析,计算出未利用资源所占比例,同时将不同服务器上性能数据的差异转化成欧氏距离计算出来,进行负载平衡分析,给出自动化的分析报告,为开发者进行性能调优提供了直接的参考。本文的主要成果是Spark性能数据收集分析系统软件。目前,本系统运行情况良好,取得了满意的效果,成功收集了性能数据信息,有效地帮助了开发者了解Spark集群底层运行情况,对于性能调优工作有一定的参考意义。
其他文献
低碳经济已经成为现代社会大为推广的,一种符合当今社会发展要求的发展模式。为了实现可持续发展,就要发展低碳经济,这就要求企业顺应社会的发展对人力资源管理进行创新及改
目的探讨住宅室内外空气PM10及元素组分的污染特征和相互关系。方法于2009年夏季选择某居住区内55户家庭,采用个体暴露撞击式采样器采集居室内外PM10样品,使用大气采样器采集
在出版社转企改制逐步深化的背景下,文章结合4C营销理论分析出版社营销观念、营销组织结构以及营销技术,探索我国出版社当下营销机制的创新。
党的“十八大”报告明确指出,“社会保障是保障人民生活、调节社会分配的一项基本制度”,这就要求社会各界提出相应策略,共同参与社会保障体系的建设。社区作为我国社会管理
近些年以来,我国开始走上多元化道路的企业越来越多。多元化的发展为企业开辟了新的市场蓝海,也给企业带来新的盈利模式,成为企业新的利润增长点,还能从根本上提升跨界企业的
体育和电视从诞生之日就与娱乐有着千丝万缕的联系。关于体育电视的研究,是国内外体育界、电视界研究的学术热点。本文采用比较分析法和案例研究法,从文化学的视角对我国体育
随着经济的快速发展,城市空间日趋紧张,城市高层建筑日益增多。钢筋混凝土剪力墙结构作为高层建筑的主要形式也得到了广泛使用。剪力墙结构中的连梁联系各片墙肢,是为剪力墙
紫外光固化涂料具有固化速度快、环境污染小、能量消耗低等优点,在当今强调生态环保、节能减排的大环境下具有较大的技术优势和发展潜力。但紫外光固化涂料难以应用于超厚涂
选择合适高效的密码字典在基于字典的密码破解中是比较困难的,再加上不同地域不同国家的人使用密码习惯不尽相同,这为选择密码字典增加了新的难点。鉴于此,本文收集了多个网
光聚合反应具有聚合温度低、反应速率高、易控制等特点,在印刷油墨、涂料、粘合剂等行业中有广泛应用,而光引发剂的研究是光聚合发展中的重点。为了达到高效率、低能耗的要求