论文部分内容阅读
大数据应用的数据量呈爆炸式增长,金融、天气预报以及数据挖掘等领域产生的数据量高达PB级。企业通常采用混合云模式进行大数据处理。在处理大数据作业时,尽可能使任务在私有云中执行,以保证私有云资源利用率。一旦私有云资源不足,则需要申请满足约束条件且成本最小的公有云资源,以实现资源的灵活扩展。因此异构混合云环境下面向不同类型大数据应用的自适应在线调度方法的研究,具有较高的理论价值和实际应用意义。针对以上应用场景和问题,本文从以下三个方面展开研究:(1)针对混合云环境下连续到达不同类型作业的资源分配不合理问题,本文提出了一种基于排队论的作业自适应调度算法。该算法根据作业负载的类型,利用Logistic回归方法对作业分类;同时考虑私有云资源的异构性,利用资源效用比对私有云集群中的节点进行分类;根据作业类型和资源类型建立了排队模型,利用改进的自适应遗传算法,求解作业队列的到达率,根据到达率对作业队列进行资源配置,实现了减小作业响应时间并增加私有云集群作业吞吐量的目标。(2)针对现有时间预测算法不能满足混合云环境下作业中的任务调度要求的问题,通过分析任务执行时间的影响因素,设计了基于BP神经网络的任务执行时间预测方法,并根据预测的任务执行时间提出一种任务优化调度算法。该算法通过改进Max-Min策略进行私有云任务调度,如果私有云资源不能满足用户规定的截止时间,则需要申请满足截止时间且成本最小的公有云资源。该算法提高了私有云资源利用率,减小任务响应时间和节约公有云成本。(3)对所提出的算法进行实验验证和对比实验。基于排队论的作业自适应调度算法实验中,首先验证作业分类和资源分类以及改进自适应遗传算法的性能优越性,然后与FIFO、Fair和COSHH算法进行对比分析。实验结果表明,在系统稳定且作业数量为100时,本文算法的平均作业响应分别比FIFO、Fair和COSHH低76%、56%和45%,吞吐量比FIFO、Fair和COSHH高80%、65%和31%。混合云环境下基于BP神经网络时间预测的任务优化调度算法实验中,首先验证任务执行时间预测的误差精度,预测算法的平均绝对百分比误差(MAPE)为12.88%,然后与FIFO和AsQ进行对比分析。实验结果表明,本文算法在任务响应时间方面比FIFO和AsQ分别提高了59%和35%,在相同截止时间情况下,本文算法的QoS满意率更高,同时,本文算法比FIFO和AsQ分别节约了64%和33%的公有云成本。