单节点多GPU集群下HPL动态负载均衡优化

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:windows2xp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现有GPU加速的高性能Linpack 基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现.然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU 的总性能差距较大.为此,本文提出了经验指导的动态负载均衡算法以及多GPU 自适应负载均衡算法,并且在单节点多GPU 平台上进行验证,对比现有基于NVIDIA 费米GPU 的HPL 有6.3%的加速效果.
其他文献
Oracle HotSpot 是最重要的开源虚拟机之一,服务器版(C2)即时编译器是HotSpot 针对服务器高效运行的重要组成部分。本文在分析HotSpot C2 即时编译器结构的基础上,针对某国产处理器平台,研究了C2 即时编译器移植的关键技术,重点分析了指令匹配、体系结构描述文件、执行模式上下文切换。通过初步的移植,在国产处理器平台上基本通过了OpenJDK 内部测试包的正确性验证,且实验表
本文提出了一种基于中文网络百科的属性抽取方法。该方法以中文网络百科自由文本为数据源,将属性值看作命名实体,对已分类的百科文本进行频繁模式的挖掘。通过分析频繁模式中词语序列与命名实体的关联关系,得到属性模式与属性词语,借助外部语义资源以及词语相似度计算去除重复的属性词语,得到统一的属性名称。本文对多个类别的中文百科条目进行了属性抽取实验,实验结果表明了该方法的可行性和有效性。
针对传统的并行Delaunay 网格生成方法在将子域映射到处理器上时没有考虑子域间的邻接关系,单个处理器上生成得到的子网格通常由多个不相邻的子域网格构成以及子网格之间共享节点数目庞大等问题,本文通过引入加密圈,采用几何区域分解策略给出一种改进的并行Delaunay 网格的生成算法。将复杂的二维几何区域分解成若干个子域,利用OpenMP 相关技术将子域动态的分配到各个不同的处理器上,同时对每个子域调
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作.本文在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化.在考察了向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植.实验结果表
身份认证技术作为信息安全门户之一,对于提高网络通信安全性具有重要意义。传统身份认证技术在通信过程中会直接或间接地传输用户相关的机密信息,由于认证系统本身存在漏洞,并且反制技术逐步升级,这些信息很容易被泄露或窃取。本文参照噪声引导的二维超混沌同步方程,设计实现了一种新型的身份认证模型,可以在认证通信中仅传输随机噪声信号,不发送密钥或口令,从而避免被泄露或窃取。分别在FPGA和PC上实现了同步算法,构
提出一种基于云模型和支持向量机(Support Vector Machine,SVM)的入侵检测特征选择方法,该方法采用逆向云发生器从真实训练数据中得到云的数字特征,形成实际判断规则,实现正常数据建模,把网络入侵检测正确率作为SVM 参数优化目标函数,以提高入侵检测的正确率。在KDDCUP1999 数据集上进行仿真实验,结果表明该方法能更有效地精简网络数据特征,能够有效地解决入侵检测中存在的特征选
面向大规模工程计算,JASMIN 框架在并行使能技术和数值算法上进行了发展和完善.2.0 版JASMIN 框架保持编程接口兼容,无需用户修改程序,可直接提升已有程序的并行可扩展能力.JASMIN 框架在曙光6000等多台高性能计算机上的成功安装表明,JASMIN 可直接在不同架构的高性能计算机上移植使用.为考察应用程序在JASMIN 框架支撑下的并行可扩展能力,在曙光6000 超级计算机上测试和分
设计并实现了一种面向多OS的资源分区系统-KMON (Kernel Monitor).KMON将VMM( Virtual Machine Monitor)从原有虚拟机系统层次中抽离出来作为一个能够独立执行的程序,仅负责资源的分配管理与客户OS的加载启动,从而极大的精简了客户OS敏感指令的虚拟化任务.实验表明,KMON原型系统中的客户OS在各项指标中与原始OS相近,基本消除了虚拟化的性能开销,达到了
提出一种面向大规模同时多线程处理器可扩展高速缓存的动态划分方法.将文献所提的机制扩展到多体高速缓存中.线程的内存访问特征变化迅速,因此在运行时收集同时多线程的缺失率特征,依此特征在线程间划分高速缓存.实验结果显示,相对于非划分的具有标准LRU替换策略的高速缓存,本文提出的划分方法能够IPC达18.94%.
在近几年中,研究人员已经开始越来越重视集群中的功率消耗控制,众多研究人员都致力于功率消耗的降低与节约,然而能耗的管理比单纯的能耗的节约昱得更加的重要。在本文中,将功率看成是可以管理和调度的资源之一。本文设计与实现了两种应用于HDFS、有效控制与预测功率的算法和策略,结合给每个节点设置功率预算的方法,实现功率的非均衡的动态分配以达到控制整个集群功率消耗,用以限制能耗消耗。此外,本文还通过逐步线性回归