面向GPU计算平台的归约算法的性能优化研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:cjp023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
归约算法在科学计算和图像处理等领域有着十分广泛的应用,是并行计算的基本算法之一,因此对归约算法进行加速具有重要意义.为了充分挖掘异构计算平台下GPU的计算能力以对归约算法进行加速,文中提出基于线程内归约、work-group内归约和work-group间归约3个层面的归约优化方法,并打破以往相关工作将优化重心集中在work-group内归约上的传统思维,通过论证指出线程内归约才是归约算法的瓶颈所在.实验结果表明,在不同的数据规模下,所提归约算法与经过精心优化的OpenCV库的CPU版本相比,在AMD W8000和NVIDIA Tesla K20M平台上分别达到了3.91~15.93和2.97~20.24的加速比;相比于OpenCV库的CUDA版本与OpenCL版本,在NVIDIA Tesla K20M平台上分别达到了2.25~5.97和1.25~1.75的加速比;相比于OpenCL版本,在AMD W8000平台上达到了1.24~5.15的加速比.文中工作不仅实现了归约算法在G P U计算平台上的高性能,而且实现了在不同GPU计算平台间的性能可移植.
其他文献
背景:细胞凋亡异常在肿瘤发生中起重要作用,抑凋亡基因Bcl-2和促凋亡基因Bax与细胞凋亡密切相关.目的:探讨Bcl-2和Bax在胃癌中的表达及其意义.方法:采用免疫组化SP法检测30例
With the enormous and increasing user demand, I/O performance is one of the primary considerations to build a data center. Several new technologies in data cent
肝癌是国人最常见的恶性肿瘤之一.肝动脉DSA可确定肿瘤的类型、大小、分布,显示肝血管的解剖和血供情况,明确静脉系统有无受损[1].为外科手术或介入栓塞治疗提供可靠的理论依
随着短期融资券、中期票据的推出以及债务融资工具发行管理方式上的变革,利用公司信用类债券市场融资的企业覆盖面进一步扩展党的十八届三中全会将“发展并规范债券市场,提高
磁共振发射 /接收表面线圈的使用原则一般是专用表面线圈做特定的部位 ,这样能保持图像较高的信噪比[4 ] ,但要求每个人体部位都用专用线圈耗资太大 ,何况有些部位专用线圈在
With the increasing use of field-programmable gate arrays (FPGAs) in embedded systems and many embedded applications, the failure to protect FPGA-based embedded
患者男,36岁.右肩胛区疼痛1年,发现右颈肩部肿块2月余.查体:右颈肩部可扪及一界限不清的肿块,约4.0 cm×5.5 cm大小,表面光滑,质硬,固定,无压痛,叩击肿块颈部内侧上臂尺侧有
患者 男 ,10岁 ,半年前无诱因出现发热 ,腰痛呈持续性钝痛 ,无放射 ,夜间加重 ,伴有盗汗、进行性消瘦、腰背强直、四肢无力、行走困难。考虑为骨结核、强直性脊柱炎 ,经治疗
食品加工企业的有害生物管理的主要困境是管理力度不够,投入少。其结果可能导致侵入的有害生物种类和数量多,容易出现产品污染事件。食品加工企业在有害生物管理上通常外包给
患者 男 ,42岁。咳嗽、咳痰 30余年。以慢性支气管炎、肺气肿、肺内感染多次住院。 2个多月来反复少量咯血 ,再次入院。胸部CT片示两肺多发肺大泡 ,右肺上叶后段和左肺下叶大