论文部分内容阅读
CUDA开发人员面临的最重要的性能挑战之一就是如何充分利用本地多处理器内存资源,如共享内存、常量内存,以及寄存器。原因就是我们上一篇文章中讨论的,虽然全局内存可以提供超过60GB/秒的速度,但这对于只获取使用一次的数据来说,仅相当于15gf/秒——要获得更高的性能则要求能够重用本地数据。CUDA软件和硬件设计师做了~些出色的工作,以隐藏全局内存的延迟和全局内存的带宽限制——但这都是以本地数据重用为前提的。