决策树模型预测Spark SQL作业执行时间的方法

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:E200902027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark SQL在超大规模集群和数据集上存在易用性问题,如Catalyst最优执行计划的选择,Shuffle Partition的配置对性能有较大的影响,数据倾斜往往导致集群性能变差。为了在作业执行之前准确预测执行时间,更加充分地使用运行时数据,选择最优执行计划,提出通过决策树及其组合算法的回归模型预测作业执行时间的方法。采用交叉验证方法优化模型超参数,通过剪枝和组合算法优化过度拟合问题,选择相关指标评估机器学习模型预测的准确性。实验表明,梯度提升树回归模型预测作业执行时间的R~2超过0.8,且能
其他文献
人工智能和机器翻译的工程伦理是对人工智能和机器翻译产品或者系统设计和研发过程中所涉及的道德价值、问题和决策的研究。本文分析工程伦理学在人工智能产品和机器翻译系统
沉寂多年的半导体行业,因为全球性芯片缺货再次疯狂起来。对中国而言,紧迫程度则更甚。自中兴、华为事件开始,芯片市场对国产替代的需求裹挟着爱国情绪逐步爆发。在产业端肩
目的 采用不依赖连接反应的克隆法,利用T7核酸外切酶和硫代磷酸化修饰引物克隆Notch2长片段基因。方法 将难以扩增的Notch2 cDNA的编码序列(7416 bp)人为分成3段,引物设计时对
10月1日-2日,由上海歌剧院创排的原创歌剧《田汉》特别选择国庆的"正日子"与观众正式见面,向祖国献礼。首场演出,上海歌剧院院长、著名指挥家、钢琴家许忠执棒上海歌剧院交响
目的比较AO型特殊钢板与传统钢板在治疗肢体近关节骨折中的疗效差异。方法回顾性分析2011年2月—2013年8月收治的200例肢体近关节骨折患者的临床资料及随访资料,分为AO特殊钢
目的分析侧向加载条件下不同牙体剩余量对纤维桩复合树脂全冠修复体抗折性能的影响。方法选择2014年1月-2015年1月因正畸治疗而需要拔出下颌单根管前磨牙48颗,按牙体剩余量分
蜜蜂具有高度复杂的社会性行为,是一种理想的模式生物,近十多年来有关蜜蜂基因的研究也在飞速发展,为探究蜜蜂独特的行为与特定基因之间的关系提供了可能。简要介绍了蜜蜂基
目的探讨糖耐量筛查在空腹血糖正常的肝硬化患者中的临床意义。方法选择2011年1月—2013年12月于北京军区总医院全军肝病治疗中心就诊的空腹血糖正常肝硬化患者312例作为观察
目的探讨芪苈强心胶囊改善维持性血液透析(CHD)患者尿毒症性心肌病的临床疗效。方法将2013年5月—2015年12月收治的64例尿毒症性心肌病患者按治疗方法分为A组和B组,每组32例。B
目的对外周血嗜酸性粒细胞(EOS)、白介素-23(IL-23)、肿瘤坏死因子-α(TNF—α)水平与小儿变异性哮喘雾化吸入治疗效果的相关性进行分析。方法选取2014年3月-2016年3月就诊的160例