基于OpenCL的归约算法优化研究

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:acdd5230351
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和NVIDIA GPU平台分别测试的结果表明优化后的算法在两个平台上都能实现很好的性能加速.在AMD ATI Radeon HD 5850平台上,Int和Float类型数据带宽利用最高达到了实测带宽的89%.在NVIDIA GPU Tesla C2050 平台上,性能也达到了CUDA版本的相应函数性能的1.3~1.9 倍.
其他文献
Recently, needs for reduction of raw material usage and use of low-quality raw materials have been growing in each steelworks. When the time has been ripe for p
会议
随着我国社会体制的不断改革,实现全面小康是社会发展的长远目标,在现阶段出台的相关扶贫政策中,提出了精准扶贫的战略部署,并进一步提出了教育扶贫的理念,教育扶贫是脱贫致
随着教育现代化进程步入新的阶段,更关注教学的面向人人问题.初中数学教学不仅事关学生思维能力、学习能力等发展,也将影响学生自信心的形成.面对学困生,教师应以理性的态度
  本文采用并行自适应有限元方法计算了不可压流体的三维圆柱绕流Benchmark。不可压流体圆柱绕流问题是不可压流体计算的一个重要的测试问题,我们采用高阶有限元离散、曲面
会议
  OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上,实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单
会议
  论文提出了一种适用于共享存储多处理器系统的光互连网络结构,通过增加系统连通性和远程通信带宽,它能有效降低系统的远程存储访问延迟,提升系统整体性能。采用密集波分复用
  DSP(数字信号处理器)由于其特殊的结构使得它不仅在传统的DSP领域有很好的表现,而且在高性能计算领域中针对特定应用通过算法优化更是性能出众。文章首先简单介绍了DSP结构
近几年,情境教学法在小学数学课堂上的应用达到了风靡的状态,它独有的特征,明显的作用令教师和学生都十分青睐.一时间,有关情境创设方法的研究也成为了热门的课题,教师开始追
为了帮助我国企业在跨国并购交易中更好地应对因企业社会责任表现所引起的跨国并购风险,平衡好经济利益诉求与社会责任的履行,论文以2009-2017年沪深A股上市公司109起成功的
  线弹性理论广泛应用于结构分析与工程设计,与之对应的线弹性问题亦为工程与科学计算研究的重要对象。本论文首先提出线弹性问题模型。然后,详细介绍一种适用于求解线弹性问