基于编译器辅助的GPGPU缓存一致性研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:l7610237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以GPGPU为基础的异构计算架构在云计算、大数据以及深度学习等各个领域的广泛应用,以及GPU架构的不断发展,GPU核心数量不断增多,其对于GPU架构中缓存一致性问题也越来越突出。在多核处理器架构中,通常使用基于目录的硬件缓存一致性协议,来维护不同处理器核心私有缓存之间的数据一致性。由于GPU架构高并行的特点,将传统多核处理器架构下的缓存一致性协议直接应用GPU架构中,会导致更频繁的通信开销,更大存储开销,并且会导致更高的一致性协议设计复杂度。因此传统多核处理器架构下的缓存一致性协议并不能直接应用于GPU架构中。现代GPU架构中并没有保证数据正确性的缓存一致性协议,只能通过不把全局数据缓存到私有一级缓存上来避免缓存一致性问题。对访存敏感型的GPU应用程序来说,将全局数据绕过私有一级缓存会带来更多的延迟,并且会潜在地造成更多的片外访存请求,这样会影响整个异构计算系统的性能。我们发现一级缓存对于GPU的性能会有积极影响,然而盲目将数据加载到一级缓存会造成缓存不一致的问题。基于GPU kernel函数访存模式是可以预测的研究,本文提出了一种静态程序分析的方法,在保证数据一致的情况下,保守地将一部分数据缓存到私有一级缓存上。我们将本文提出的共享访存分析模块与NVIDIA NVCC编译器集成到一起,利用PTX ISA指令集中特有的缓存操作符,来自动地生成合理并且高性能的应用程序,没有造成任何GPU硬件上的开销。我们将我们提出的方法应用到了实际的嵌入式和通用的异构计算平台上。实验结果表明,对于缓存敏感型的应用程序,我们在嵌入式异构平台Jetson TX1,Jetson TX2以及GTX1060上,分别取得了平均1.38倍、1.26倍和1.24倍的加速比,同时我们对二级缓存的访问事务也平均减少了 31%、31%和48%。
其他文献
物体重心的确定在机械设计和工程中都具有实际意义。本文就物体重心的求法所推导的两个推论使得物体重心的确定变得更加准确和快捷。
由于辽河干流水生态退化严重,与辽河保护区恢复目标差距悬殊,水生态恢复难度大。选取5个断面对该流域水环境进行了分析评价,为流域生态环境治理提供了科学理论根据。
在李克东教授提出“李克东难题”一年之后的2009年12月23日,在国内外教育界关于“李克东难题”这场大讨论进行得如火如荼的时候,中国信息技术教育杂志社邀请李克东教授到北京,并
<正>在白条鸡的生产过程中,微生物的污染程度直接影响到其产品质量,如何降低白条鸡肉表面的含菌量,是目前毛鸡屠宰加工行业普遍关注的焦点。国际上普遍将HACCP管理体系应用于
<正> 我们知道,解析函数f(z)的孤立奇点Z=a可以用■|f(z)|来判断其类别:若■|f(z)|=α(有限数),则Z=a是f(Z)的可去奇点;若■|地(Z)|=∞,则Z=a是f(Z)的极点;若
1856年Virchow提出与深静脉血栓形成有关的三种因素:血管壁的改变,血流的改变及血液成分的改变。目前证实,术后从下肢流回心脏的静脉血流很慢,血流成分亦发生某些变化,使其
本文运用问卷调查法、文献资料法、数理统计法对吉林省普通高校不同城市、性别、年级、来源学生的体育消费行为进行调查分析。此项研究为了通过普通高校体育教育正确引导学生
《金匮要略&#183;腹满寒疝宿食病》中记载“柴胡桂技汤方:治心腹卒中痛者”。本文通过分析此方方药组成以及历代医家对本方的理解与应用总结出本方治疗“腹中卒痛”的机理有
在上世纪70年代耳声阻抗测试开始广泛运用于临床,成为诊断中耳病变非常有价值的工具。1970年Jerger[1]首次关于临床运用双频或多频探测音的报道,使声导抗测试有了显著的发展
以阜阳市西清河水为水样,用酸性高锰酸钾法测定水样的化学需氧量(COD)。分别取表层水、底层水作为样品进行研究,研究表明,表层水比底层水的COD值大。根据滴定所消耗的KMnO4溶液