【摘 要】
:
快速多极方法是科学与工程计算的典型算法之一,具有广泛用途.本文以求解位势问题为例,研究快速多极方法计算主部在集成众核(MIC)架构的并行计算及优化,涉及OpenMP线程并行、访存、数据通信、向量化等方面,分析比较了快速多极方法计算核心在优化前后的MIC和CPU性能加速.结果表明,快速多极方法计算主部在集成众核架构上获得了20.8的性能提升,单MIC卡性能相当于单结点双路CPU性能的1.95倍.
【机 构】
:
国防科技大学 计算机学院,湖南 长沙 410073 国防科技大学 计算机学院,湖南 长沙 4100
论文部分内容阅读
快速多极方法是科学与工程计算的典型算法之一,具有广泛用途.本文以求解位势问题为例,研究快速多极方法计算主部在集成众核(MIC)架构的并行计算及优化,涉及OpenMP线程并行、访存、数据通信、向量化等方面,分析比较了快速多极方法计算核心在优化前后的MIC和CPU性能加速.结果表明,快速多极方法计算主部在集成众核架构上获得了20.8的性能提升,单MIC卡性能相当于单结点双路CPU性能的1.95倍.
其他文献
本文对一种Nb-Ti微合金化低碳钢采用高温压缩变形实验模拟热连轧过程,对该钢的高温热变形行为进行了研究.研究了变形条件对这一钢种的高温流变应力的影响规律.采用单道次压缩实验,研究了动态再结晶行为,获得了该钢热压缩变形条件下的Z参数和热变形激活能,确定了该钢的流变应力方程.
利用EBSD及磁性检测分析技术研究了退火时间对双辊铸轧3%Si无取向硅钢再结晶组织、织构及磁性能的影响.研究表明,3%Si无取向硅钢孕育期短,再结晶速度快,其再结晶过程分为回复、再结晶、快速长大、缓慢长大与再次长大五个阶段.再次长大阶段晶粒尺寸明显增大,但完成再次长大需要在1000℃保温10min以上.退火时间对织构的形成也有一定的影响,短时间退火对立方及高斯织构的形成有利.
本文介绍了重钢1780mm热轧生产线S450、 S485高强度管线钢开发过程,通过对S450、S485高强度管线钢的成分设计、温度制度、冷却模式优化以及设备改进等措施,有效解决了S450、S485管线钢松卷、落锤性能不合问题,成功完成了S450、S485高强度管线钢的开发任务.
根据某钢厂φ160mm27CrMo矫直参数,利用有限元分析软件ANSYS/LS-DYNA,建立棒材矫直的三维有限元模型.基于此模型,综合分析棒材27CrMo矫直过程中的应力场、应变场分布规律.并且通过考察某些具有代表性的受力单元,研究了棒材表面至心部不同部位在矫直过程中的应力应变变化情况.
高强度耐腐蚀油气输送用管线钢是未来管道工程建设的发展趋势,本文结合首秦4300mm宽厚板生产线特点,开发了厚壁28.8毫米高强韧、抗酸性X65MS管线钢宽厚板.对开发的28.8mm厚壁X65MS抗酸钢板的成分控制、炼钢工艺和轧钢工艺进行了介绍.钢中具有极低的C含量和稳定的P、S、N、H含量总和,P、S、N、H含量的总和控制在150×10-6以内.连铸坯中心偏析是氢致诱导裂纹产生的根源,是影响抗HI
本文对超低碳IF钢热轧卷表面卷渣面翘皮缺陷从热轧装炉温度角度进行分析,研究了不同热轧装炉温度参数对该类缺陷的影响规律.研究结果表明:卷渣面翘皮缺陷与入炉温度的关系基本上是随入炉温度升高缺陷发生率降低.对不同装炉温度情况下的氧化铁皮进行分析,XRD相成分分析高温装炉FeO占62%较低温装炉FeO百分比81.7%低,因此高温装炉氧化铁皮更容易去除,同时氧化铁皮粒度及氧化铁皮中FeO相所占百分比是影响不
激光拼焊板可以有效地减轻汽车重量,提高汽车整体结构强度,从而提高碰撞安全性,在汽车工业中受到了越来越广泛的应用.本文运用板料成形专业软件Dynaform,主要模拟了等厚(1.0mm)拼焊板筒形件拉深成形过程,分析和研究了母材不同强度比以及焊缝位置对中焊缝移动和拉深性能的影响规律.结果表明:等厚拼焊板拉深性能和焊缝移动量与两种母材强度比和焊缝位置有关,随着母材强度比的增大,焊缝向强度高的母材一侧移动
化工过程的实时模拟是化工界长久以来的梦想,有望彻底改变其研发模式.但其计算量巨大,传统模拟的速度与实时相去5~6个量级,实现希望渺茫.近年来异构超级计算机发展迅速为此带来了希望.开发了适用于异构系统的多尺度并行计算软件,已可实现气固流态化过程的准实时模拟.对于涉及复杂迭代和矩阵操作的气体计算,采用CPU处理;对于包含大量简单运算的颗粒计算,采用GPU加速.采用能量最小多尺度模型(EMMS),对流化
随着云计算和各种大数据应用技术的发展,数据中心的数量和规模得到了迅速的发展,为了满足大规模服务器之间数据流动的需求,数据中心网络在通信能力上面临巨大的挑战.为了增加数据中心网络的通信能力,本文基于现有数据中心的树形网络拓扑,提出了一种使用AWGR和TWC光器件的OCS/EPS光电混合网络结构Ace-net;在文中详细描述了此结构的整体设计以及带宽需求测量、仲裁控制、流量分配等各个子系统的运作方式;
数据预取是通过隐藏访存延迟改善应用性能的有效方法.反馈式优化技术可以解决基于指针的链式数据结构的预取问题.本文在申威1600处理器上实现了基于硬件性能计数事件驱动的采样式反馈预取优化,对部分访存密集型SPEC2006的测试表明:平均性能提高了4.3%,同时采样的开销控制在10%以内.