【摘 要】
:
BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS的多核并行性能已经变得比与体系结构相关的单核性能更
【机 构】
:
中国科学院软件研究所并行软件与计算科学实验室 北京 100190
【出 处】
:
2010年全国高性能计算学术年会(HPC china2010)
论文部分内容阅读
BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL.ACML四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验发现,比起一个逻辑处理强大但是复杂的处理器,一个Cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义.
其他文献
本文给出三值光学计算机的一个新的概念结构,这个结构凸显了它与高性能计算机 系统融合的思想。在这个概念结构中,三值光学计算机即自成体系,又自然成为高性能计 算机系统的
地震层析是利用大量地震观测数据反演研究区域三维结构的一种方法。菲涅耳带层析成像考虑波频率的影响,具有较 高的分辨率,但所需的存储空间和计算量很大。本文基于MapRedu
案例背景:rn在组织孩子集体活动前,通过节奏的练习、音乐欣赏活动,让孩子们运用语言及身体的动作去表现音乐.在宽松、自由的氛围中体会、欣赏到音乐的美感.我们都会采用一些
基于半经典分子动力学模型,在SMP 集群中实现激光化学反应双层并行模拟系统。结合粗粒度的原子分解算法和细粒 度的矩阵并行乘法实现激光化学反应模拟中力计算部分的并行
对于快速发展的高性能计算机来说,全局通信不仅对并行可扩展性有较严重的影响,而且对系统的稳定性也有较严重的影响。在基于区域分解方法求解偏微分方程的领域中,并行有
孩子的幼儿园时期,是他们成长的一个起步关键阶段,也是他们脱离父母,走入社会的一个关键期.在幼儿阶段时,他们的身心都处于一个极为敏感的高度性时期.随着教育的不断发展和深
椭圆曲线方法(ECM)是实现一般数域筛法中剩余因子分解部分的有效方法.ECM的高效硬件实现对于提高筛法效率有着重要作用.通过深入研究ECM 算法,改进 Montgomery 模乘算法,使用
网络中各种虚假或恶意欺骗的服务节点常导致用户很难快速获得高质量的组合服务,因此仅从性能角度研 究Web服务组合存在片面性。针对当前服务组合中信任机制被忽略的缺陷,提
近几年,随着二胎政策逐渐放开,我们正式进入二胎时代.二胎的出生,改变了家庭原有的格局,家中的“大宝”首先受到了影响,其身心和行为习惯会有明显的变化.作为父母的家长,应当
当前正处于我国经济结构转型升级的关键阶段,在该阶段内,施工企业不仅要面对激烈的国内市场竞争,同时也参与国际市场的竞争.鉴于此,为了更好地推动施工企业发展,实现施工企业