单节点多GPU集群下HPL动态负载均衡优化

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:shihaiquanhanhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现有GPU加速的高性能Linpack 基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现.然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU 的总性能差距较大.为此,本文提出了经验指导的动态负载均衡算法以及多GPU 自适应负载均衡算法,并且在单节点多GPU 平台上进行验证,对比现有基于NVIDIA 费米GPU 的HPL 有6.3%的加速效果.
其他文献
  在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平
  Conventional debugging techniques allow users to control program execution only in the forward direction,forcing developers to apply time-consuming methods
会议
  从单机性能优化角度对一个高阶精度结构网格CFD并行程序进行了优化.通过识别关键变量并对其进行常量参数化优化,使编译器能够实现更高级别的针对性优化;根据程序数据结构特
会议
  传统RBF神经网络在网络流量预测过程中存在收敛速度慢、极易出现局部最优等缺点,从而导致预测精度低。本文采用蚁群算法优化RBF神经网络参数来进行网络流量预测。利用蚁群
  为了获得高质量的插值图像,提出了一种支持向量机插值方法.先用改进的粒子群优化算法对支持向量机进行参数寻优,然后用寻优后的支持向量机在所选择的区域内应用图像相关性
  以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.
会议
  在蛋白质三级结构预测领域,基于蛋白质采样信息的结构预测方法是一种应用比较成功的方法,但是随着蛋白质数据库的增大,对计算能力的需求也越来越高,限制了这种方法的使用。随
会议
  分析了云计算环境中虚拟机映像存储系统所面临的问题和挑战,设计并实现了一种系统层的虚拟磁盘协作式持久缓存CoCache,能够充分利用各个节点缓存的服务能力,使其暂存的虚
天津铁厂建厂二十五年来,在生产不断发展、经济效益不断提高的同时,劳动卫生与职业病防治工作也取得了很大的成绩,但是与之相比,劳卫职防工作的开展还很不够,特别是在不断扩
  以底层网络资源利用效率最优为目标,在底层网络不需要支持路径分裂的情况下,提出了一种新的基于快速收敛蚁群优化的虚拟网络映射算法。通过引入高斯过程模型,加快蚁群优化算