众核平台结构网格CFD并行计算研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:inksong000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算流体力学(Computational Fluid Dynamics,CFD)的发展与计算机技术的发展紧密相关。新型多核/众核处理器的出现为包括CFD在内的大规模并行应用带来了机遇,也带来了挑战,传统并行算法已难以适应新型多核/众核架构丰富的并行性,并行可扩展性成为瓶颈。如何结合实际CFD应用特点和新型多核/众核并行体系结构特征,设计高效可扩展并行算法,成为了CFD并行计算的重要研究内容之一。本文面向当前主流的多核/众核处理器平台,研究复杂高精度多区结构网格CFD可扩展并行算法,主要工作包括:1)众核平台隐式LU-SGS求解的可扩展并行算法。LU-SGS是工程CFD应用中流行的求解方法,但计算过程数据依赖性强,难以并行。针对传统流水线共享存储并行算法在新型众核平台上难以扩展的瓶颈,提出了两级流水线并行算法TL-Pipeline(Two-level Pipeline),有效降低了流水线开销,提升了线程间负载均衡性。采用嵌套OpenMP在自主开发的复杂高精度CFD代码中实现了上述算法,在双路Intel Xeon E5-2692 v2多核处理器结点(共24核)和Xeon Phi 31S1P57众核处理器(57核,最多228线程)上,相对于传统流水线并行算法,分别获得了多达1.42和7.80倍的加速比。2)在此基础上,提出了基于分块并行的两级流水线LU-SGS并行算法BTL-Pipeline(Block-based TL-Pipeline),充分挖掘多块网格计算之间的并行性。对于LU-SGS,BTL-Pipeline相对于TL-Pipeline在上述Intel Xeon和Xeon Phi平台上加速比分别为2.06倍和7.42倍。进一步将分块并行的思想应用于CFD右端项(包括粘性项和对流项)计算的OpenMP并行中,相对于传统单块网格内的OpenMP并行,在上述Intel Xeon和Xeon Phi平台上加速比分别多达1.49倍和2.06倍。3)当前多核/众核处理器通常具有256位甚至512位的宽向量部件,对于复杂的CFD计算内核,编译器自动向量化通常效率较低。选取高精度结构网格CFD中的五阶精度插值模板WCNS,实现了基于Intrinsic的高效向量化并行,大幅提升了程序性能,对于双精度计算,在256位Intel Xeon E5-2692 v2处理器上加速比为2.01倍,在512位Xeon Phi 31S1P57处理器上加速比为7.60倍。
其他文献
中共中央经济会议指出如今我国的经济发展已经步入新常态阶段,经济发展形态愈来愈多样化,结构分工也更加清晰明确,这是中央政府在深入探析了经济发展现阶段特征后得出的具有
随着我国改革开放进程的深入,人们的收入水平增加,可支配财产明显增多。人们投资理财的想法已逐渐深入人心,因此各个商业银行都开发了自己个人理财产品。然而市场上同类产品
目的探讨密蒙花总黄酮对去势雄鼠干眼症动物模型角膜及泪腺组织的保护作用与炎症反应的关系。方法150只健康1月龄Wistar雄性大鼠随机分为5组(正常组、假手术组、手术对照组、
<正>赫畅,来自于哈尔滨的满族人,满族姓氏为赫舍里,他认为,老祖宗能在北京开创一个朝代,他也可以在北京开创一番事业,于是他将店铺起名为黄太吉,源于皇太极。就是这样一位典
<正>20世纪中国文学大师风采展2006年5月15日,北航艺术馆正式落成,由中国现代文学馆和学校联合主办的"20世纪中国文学大师风采展"隆重开展。巴金、茅盾、老舍、冰心、沈从文
<正>皇家艺术学院的知名展会已于六月底结束。与最近举行的本科生的作品展相映衬,该时装秀则是完全展示了硕士生的作品。这是一次才华横溢且美妙的展示,不仅能让你欣赏一丝不
眼底出血,是许多眼病和全身病的共同表现,病因不同,治法不同,疗效各异。临床上既要局部辨证与全身辨证相结合,又要辨病与辨证相结合。治疗上一般遵循塞流(止血)、澄源(求固)
健美操是集音乐、体操、舞蹈、迪斯科等为一体的深受人们喜爱的体育项目,也是以音乐做诗、身体作画的一项美的运动。音乐是健美操的灵魂、行动的信息,它以优美的旋律影响着人
我国环保产业环保投资总量不足且投资效率低下,企业缺乏环保投资热情,银企可通过绿色金融供应链模式共享经济收益以及无形的环境收益。本文是从博弈论的角度分析了供应链金融
<正>我们每个人都有能力为自己的品牌树立形象,竭尽全力使其独树一帜,并成为这个世界的唯一。品牌的这种独特性能够吸引外界关注到我们的产品、服务,甚至只是我们的消息。当