基于马尔可夫过程的Hadoop集群性能优化与平均寿命的研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:czfczfc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop集群作为云计算、大数据技术的处理平台被广泛的应用于各种各样的领域,Hadoop集群无论在商用或是科学研究方面都具有重要的价值。Hadoop集群可以由若干台服务器构成不同的规模,以达到其低成本高性能的目的。但是,服务器节点机在连续长时间执行任务的过程中,会出现节点失效、网络阻塞、任务异常和任务执行时间过长等集群故障。集群故障会对集群造成不同程度的冲击与损害,造成故障概率频繁、集群利用率不合理、性能下降甚至集群寿命降低等现象。本文从降低集群故障的角度,提出了一种基于马尔可夫过程的Hadoop集群性能预估优化模型POH(Prediction Optimization Hadoop)。针对开源Hadoop集群连续执行任务后节点机器易发故障现象,采取提前预估集群故障状态,根据集群故障趋势及时做出优化调整的策略。通过预判信息库收集节点有效信息,利用Markov链预估Hadoop集群性能。按照预估结果从集群的任务并行度、HDFS数据块复制数和Name Node备份周期三个角度对Hadoop集群进行优化调整。经实验结果对比表明,采用POH综合算法进行优化后,节点任务执行时间超长现象明显降低,故障次数大大减少。在相同任务量下,由于POH模型的任务平均读写速度得到提升,集群的平均资源利用率高于开源Hadoop集群;集群故障时间和总任务执行时间均明显减少,也使得Hadoop集群拥有较高的高可用性。优秀的Hadoop集群应该拥有更加持久的集群平均寿命。因此,集群平均寿命可以作为Hadoop集群性能的重要评价标准。本文针对该问题提出了一种基于Poisson过程的Hadoop集群平均寿命预测方法。通过预测计算,及时对集群进行调整优化,使系统性能保持在正常状态。同时在三种不同特征类型的Hadoop集群的实验中观察集群在任务执行过程中平均寿命的变化。实验结果表明,该方法能有效地判断Hadoop集群故障发生的频率,预测出集群的平均寿命,对集群性能优劣进行评价。其预测结果也可以作为Hadoop集群性能参数深度优化调整的有力根据。
其他文献
支持向量机(Support Vector Machine, SVM)最初于20世纪90年代由Vapnik提出,它采用和传统方法不同的统计学习理论(SLT)为基础,是借助最优化方法解决机器学习问题的一种数据挖
无线多媒体传感器网络的可用频谱有限且通信中干扰严重,如何保障多媒体数据传输的服务质量,是其面临的重要挑战。论文引入认知无线电技术,以满足多媒体流传输的实时性和带宽
使用存储虚拟化技术能够更加充分地发挥存储区域网SAN系统可用性强、扩展性好等特点。在基于带外SAN架构的存储虚拟化系统中,元数据服务器负责整合异构的存储资源和组织元数
随着国民经济的快速发展,各行各业对电能质量的要求不断提高。电力系统无功优化是保证系统安全、经济运行的一种有效手段,是降低网络有功损耗、提高电压质量的重要措施。因此
聚类分析作为数据挖掘中十分重要的一个组成部分,逐渐被许多商家和企业所应用,而聚类分析在一定程度上,受到数据源中待分析数据的线性与非线性制约,在遇到数据之间存在非线性
随着因特网的普及,新闻网页已经成为人们获取信息的一个主要来源之一。但面对浩瀚的信息量,人们需要借助某种方式来快速、准确地搜集自己感兴趣的信息。话题检测与追踪(Topic
随着互联网技术的发展和网络环境的改善,Web应用程序获得了飞速的发展,越来越多的传统本地程序纷纷推出Web版。有着广泛应用的高精度浮点运算可以移植成为Web应用程序,开发出
当前无线电频谱可用频段已经基本分配完毕,引入认知无线电技术可满足应急通信系统对频谱资源的需求。论文针对应急通信系统的特点对频谱检测和信道分配问题进行了深入研究并
随着多媒体信息技术的高速发展及网络的日益普及,来自社会各个领域的数字图像的数量与日俱增,图像的存储和管理成为一项繁重的工作。如何从巨大的图像库中准确又快速的找到用
无线和移动网络技术近些年来得到了迅猛发展,层出不穷的无线通信系统为用户提供了异构的网络环境,包括无线个域网(如Bluetooth)、无线局域网(如WLAN)、无线城域网(如WiMAX)、公