面向回填优化的vasp作业执行时间预测的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:guxingyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来各领域对高性能计算的需求与日俱增,服务商为了迎合计算需求通常需要在硬件资源上投入大量资金,而大部分平台的资源利用率却并不高,故集群资源的有效利用成为一个亟待解决的问题。众所周知,调度策略是联系上层作业和底层硬件资源的中枢,其对资源利用以及用户体验影响显著。而目前国内大部分高性能计算集群通常采用先来先服务等传统的作业调度方法,因为此类调度方法实现简单、实用性很强。然而,为了保证公平性原则,当需要调度一个资源需求较大而现有空闲资源不能满足的大作业时,往往需要为其预留资源,这就容易产生大量闲置的资源碎片。针对上述问题,一种比较普遍的策略是使用回填,它优化了资源碎片的利用,但好的回填依赖于对作业执行时间的预知,而由于作业预估执行时间的缺失使得回填调度很难在生产系统中运用,故对作业执行时间的预测也是亟待解决的问题。  鉴于vasp是国内应用最普及的高性能计算应用软件之一,在我校TC4600平台上,其作业数占比约43%,机时占比约50%,故对vasp作业时长进行预测具有重要意义。本文分析了vasp作业特性,通过解析日志及输入文件来抽取相应的作业特征集,基于这些特征集提出一种基于stacking模型的二次学习算法IRPA,对vasp作业进行时长的预测,该算法在多个子模型预测结果的基础上进行二次训练,结合各个子预测模型的优势,以此达到更高的预测准确性。之后进一步提出基于径向基网络的预测算法BRBF,该算法主要是利用径向基网络对未知非线性函数拟合的优越性。  我们利用我校TC4600平台上的真实的vasp作业数据集对IRPA以及BRBF算法进行测试验证。实验结果和其他几个基本方法进行对比,表明了IRPA以及BRBF在粗粒度下具有较高的预测性能。最后,我们将BRBF算法对vasp作业的预测结果与回填调度相结合,用TC4600平台上真实的工作负载进行仿真模拟,实验结果和几个基准方法对比,进一步表明了我们工作的价值和意义。
其他文献
互联网技术的快速发展所产生的海量信息易造成信息过载问题,导致人们无法从这些海量信息中快速找到所需的信息。解决信息过载问题以帮助人们快速获得所需信息已引起研究者的广
数据可视化应用于金融领域,把晦涩冗杂的数据转变为直观的二维三维可视化结果,有助于用户发现和分析金融数据背后的逻辑,迅速做出准确判断和决策。因此研究如何将可视化技术更好
随着数据流的不断发展和应用,在数据流环境下的数据挖掘已经成为获取信息的主要方式,尤其是最大频繁模式的挖掘已成为当今的研究热点,它能提供决策支持和商业预测,因此在实际
目前电力企业的配用电系统主要包括配电自动化系统、用电信息采集系统、营销管理系统等,但它们大多是孤立的,没有形成数据共享,造成信息孤岛多、互操作性差等诸多问题,妨碍了跨部
随着网络规模的不断扩大,电力通信网中资源类型繁多,资源间连接关系日趋复杂,对电力通信资源进行统一有效管理的需求日益迫切。如何对电力通信资源的属性状态和连接关系进行快速准确的识别已经成为影响高效管理的重要问题之一。本文就该问题深入研究了电力通信资源网络拓扑可视化及传输业务的最优路径选取问题。文章针对电力通信资源管理面临的问题和挑战,明确了对电力通信资源网络进行拓扑可视化优化的必要性和现实意义。重点研
虚拟化技术出现已经有几十年的历史,给企业和个人使用计算机资源带来了极大的便利,使得计算资源得到更加充分的利用。现在随着云计算技术的普及,虚拟化技术作为云计算中的关键技
目前软件定义网络架构(Software-Defined Networking,SDN)存在流表项资源消耗与控制器负载过大等问题。这些问题会直接影响到网络的转发能力和扩展性。分段路由技术的核心思想是
交互式问答受到了越来越多的关注。但交互式问答中存在着各种各样的语言现象,这些现象使得计算机难以充分理解用户的提问,指代现象就是其一。近年来,国内外许多学者对指代消解进
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使
个性化推荐服务可以根据用户的兴趣为用户提供个性化的推荐项目和商品。协同过滤推荐技术是其中应用最广泛和常用的技术。随着协同过滤技术的不断发展,协同过滤的作为推荐技术