基于OpenCL的归约算法优化研究

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户：qcolin

【摘要】

：

【作者】

：

颜深根张云泉龙国平

【机构】

：

中国科学院软件研究所并行软件与计算科学实验室.北京 100190 中国科学院软件研究所计算机科学国家重点实验室.北京 100190 中国科学院研究生院.北京 100190

【出处】

：

2011年全国高性能计算学术年会(HPC china2011)

【发表日期】

：

2011年5期

【关键词】

：

归约算法跨平台性能图形处理单元统一计算架构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和NVIDIA GPU平台分别测试的结果表明优化后的算法在两个平台上都能实现很好的性能加速.在AMD ATI Radeon HD 5850平台上,Int和Float类型数据带宽利用最高达到了实测带宽的89％.在NVIDIA GPU Tesla C2050 平台上,性能也达到了CUDA版本的相应函数性能的1.3~1.9 倍.

其他文献

面向可靠性的动态Web 服务组合选择策略研究

环境的动态适应是Web服务保证其可靠性的重要手段，当业务逻辑和网络环境发生变化时，需要在运行时刻对Web 服务组合进行动态调整。本文基于马尔可夫模型和动态Web服务组合技术，提出一种支持动态Web服务可组合性、可靠性的选择模型-DWSSR(dynamic web service selection model for reliability)。DWSSR用有限状态机对Web服务中的服务类型、操作调

会议

计算机网络网络服务资源组合调度程序

一种用户主导的业务数据的监控方法

本文基于当前大多数业务流程数据监控系统不能通过用户定制来实现根据用户需求由用户主导来监控业务数据的问题，提出了一种由用户主导的业务数据的监控方法，用户将业务数据封装成嵌套表，在嵌套表的基础上构建关键性能指标(KPI)，利用事件处理语言和关键性能指标过滤、处理业务数据，以实现由用户主导对业务数据的监控。应急处置过程中物资调配环节的实际应用验证了该方法的有效性。

会议

计算机网络网络管理数据监控管理程序

一种基于BPEL的自适应工作流管理框架

本文提出了一个基于BPEL的自适应工作流管理框架，该框架主要分为三层：①需求刻画层，建立可变过程模型；②自适应管理层，与底层工作流系统进行交互，获取流程执行信息，负责可变过程模型的控制管理；③BPEL工作流系统层，负责解析运行BPEL流程。该框架的设计独立于底层BPEL工作流系统的具体实现，任何现有的基于BPEL的工作流系统理论上都可以轻松的扩展本文提出的自适应管理框架。

会议

计算机网络网络服务工作流管理调度程序

一种基于RGPS关联规则的按需服务选择方法

随着SaaS和SOA技术的快速发展，互联网上分布的服务资源日趋丰富，与此同时，网络用户数量的激增导致用户需求呈现出个性化和多样化的趋势，因此，如何快速选择合适的候选服务满足用户的个性化需求成为一个亟待解决的关键问题。针对领域共性需求构造的领域模型库可以在对个性化需求进行服务定制过程中发挥重要的重用作用。面对用户的个性化需求，在领域模型库中进行搜索可以快速地找到候选服务解决方案，进而可以在共性解决方

会议

计算机网络网络服务程序设计语义标识

数万核上复杂应用程序的性能测试与分析

面向数万核大规模计算， JASMIN框架在使能技术和数值算法上进行了发展和完善，推出了新版本。新版JASMIN框架保持编程接口兼容，无需用户修改程序，可直接提升已有程序的并行可扩展能力。为考察应用程序在JASMIN框架支撑下的并行可扩展能力，本文在天河一号A超级计算机的数万核上测试和分析了5个复杂应用程序的并行性能。这些程序是激光聚变、材料科学、高功率微波研究中最具典型代表性的高性能

会议

数万核复杂应用程序性能测试并行性能

组网雷达估测降水系统并行化方案的设计与实现

国家气象局天气组网雷达定量估测降水系统不仅拥有较大的计算量，而且具有较大的数据吞吐量。同时，对实时性要求较高。如果可以缩短其执行时间，无疑将会带来巨大的收益。鉴于这些特点，使用VTune Amplifer XE对串行程序进行了热点分析和并行性分析，得出程序中有较多线程级并行性，从而制定相应的并行化方案；然后使用Win32多线程和OpenMP两种技术对该程序在Intel四核处理器平台上进行了并行化。

会议

热点分析并行性分析天气组网雷达定量估测降水系统

基于GPU平台的联合迭代重构算法加速

电子断层三维重构技术（Electron Tomography, ET）是在纳米尺度研究不具有全同性的细胞或大分子三维结构的重要方法。迭代重构法是ET中重构效果最好的方法,但是迭代重构法性能较差,重构大尺寸图像时需要数天的时间甚至更长,使其应用受到限制。迭代重构法中经典的方法是代数重构法（Algebraic Reconstruction Technique, ART）和联合迭代重构法（Simulta

会议

电子断层三维重构联合迭代重构法并行计算图形处理单元纳米尺度

一种面向数据偏移的云计算系统运行时负载均衡机制

在科学计算和数据分析中，存在着许多重要的迭代式应用，这类应用的输入数据和中间数据常存在一定的数据偏移现象，在类MapReduce系统上运行时，往往会因负载不均衡而产生Straggler，即执行时间显著地长于其它同类节点的节点（Map节点或Reduce节点）。例如，在PageRank[6]应用中，是以Web站点名作为Key的，如果某个站点的超链接数远远大于其它站点，那么对这个站点进行计算的节点的计算

会议

数据偏移云计算系统负载均衡机制原型系统

面向多核链接后优化器的设计与分析

目前随着多核处理器蓬勃发展，软件尤其是编译器面临着巨大的挑战和机遇，链接后优化器作为一种优化辅助工具，可以在编译链接后对整个程序进行再优化，它克服了传统编译优化的局限，并且充分利用了链接后确定信息，本文参考Arizona大学为Alpha处理器设计的链接后优化器ALTO,提出了面向多核的链接后优化器整体设计框架，并重点分析了相关的几种链接后优化技术。

会议

链接后优化器多核处理器代码排布编译器整体设计

HPL分解部分算法分析与优化

HPL是Linpack Benchmark 的并行版本，是高性能并行计算机系统性能评测的标准测试程序。将HPL原有算法进行改进，使HPL分解部分的离散访存量部分转化为连续访存量，在超级计算机领域越来越高的计算访存比趋势下，具有十分重要的意义：使得HPL能更好地反映任何机器的浮点性能。

会议

高性能计算并行计算机系统性能评测标准测试程序

基于OpenCL的归约算法优化研究

与本文相关的学术论文