基于回归模型的Spark任务性能分析方法

来源 :哈尔滨工业大学学报 | 被引量 : 0次 | 上传用户:hanson1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决Spark任务运行过程中的性能评估与改进问题,本文提出一种基于启发式算法和支持向量机回归模型的Spark性能评价与分析方法.本文首先提出一种启发式性能评价算法,该方法采用Ganglia收集并处理Spark任务运行时的集群资源消耗数据,根据k-means算法划分任务类型,并根据任务类型确定启发式性能评价算法的评价指标和初始权重.然后,从Spark历史服务器中收集并处理任务运行效率数据,与集群资源消耗数据一并作为Spark任务运行时的状态数据.最后,根据状态数据迭代确定启发式性能评价算法的最终权重,以此建立Spark性能评价回归模型.本文随后提出一种基于支持向量机SVM回归算法(SVR)的Spark性能分析方法.该方法对Spark配置参数与整体性能建立回归模型,然后对该回归模型进行敏感度分析,找到能够影响Spark性能的重要参数.实验结果表明,启发式性能评价算法能够量化Spark任务资源消耗和运行效率等各方面性能,比较全面地评估任务的整体性能.基于SVR的性能分析方法能够比较有效地应用于Spark任务的实际分析中,形成初步的Spark任务性能调优建议.
其他文献
屈原《九歌》之"九"与《九章》之"九"意义不同,并不表示文章的篇目数。《九歌》实承自上古乐曲旧题,"九"乃"九成"之意,表示乐曲共包含九个不同的乐章(段)。参照《清华简》"琴
对参加1988、1990、1991年全国青少年羽毛球冬训的279名运动员进行神经类型测试及对部分运动员长期追踪测试研究,发现比赛成绩好的运动员在智力、大脑皮层神经细胞兴奋与抑制过程的集中程度均
明代宗学于隆庆三年开始正式设置,万历四十六年最后完成,历时49年,先后共设置宗学30所。明代宗学的设置是多种因素共同作用的结果。明初建立的宗室教育机构功能的丧失是明中
目的探讨初产妇产前焦虑与分娩方式选择的相关性及对产后出血的影响。方法回顾性分析200例初产妇,根据其焦虑自评量表(SAS)问卷的评分情况分为焦虑组和对照组,分析产前焦虑与
近二十年来我国学生中出现的既不觉得自己体质下降又不因之产生危机感的"灯下黑"现象日益严重,这与体质认识偏差、体质理解"时间差"、"主静"观念陈旧等诱因得不到祛除不无关
Vilsmeier-Haack反应制备2,4-二羟基苯甲醛MendelsonWL等[SynCommun,1996;26:603]间苯二酚和POCl3/DMF/CH3CN或(COCl)2/DMFCH3CN在0℃下反应得中间产物,续在50℃水中水解得纯产...
呼吸机相关性肺炎(VAP)是医院获得性肺炎中最常见和最重要的一种,具有较高的发病率和病死率。研究发现,气管插管后所造成的VAP,其病原菌多数来源于口咽部分泌物和胃食管反流
目的考察不同取代基对噻唑环Vilsmeier反应活性的影响。方法设计合成了含7种不同取代的噻唑底物,并考察了Vilsmeier反应的活性。结果和结论含有芳香族取代基的底物进行Vilsme
目的分析以高剂量表柔比星为主的联合化疗方案治疗晚期胸部恶性肿瘤的效果。方法选取2014年6月~2016年6月期间在我院收治的52例晚期胸部恶性肿瘤患者,其中乳腺癌17例,非小细胞肺
含有重金属的废水排放后可造成水体污染,并通过生物链的传递、积累进入人体,对人类健康造成严重危害。重金属是重要的非再生资源,重金属废水不仅增加了环境压力,也是巨大的资