论文部分内容阅读
使用图形硬件来进行通用数值计算已经成为一个主流的讨论话题。以利用少量重用输入数据进行高度并行计算为代表的流算法的实现,已经广泛应用在GPU领域。其中密度矩阵乘法频繁的数据执行模式和高度并行计算的特点,使得矩阵乘法成为GPU高效计算的很好的一个选择。但令人惊讶的是,如此接近完美的GPU算法执行起来效率却不如目前采用的CPU缓存已知方式。我们发现导致这个现象的原因是在计算邻近的高速缓存时,GPU效率大大落后CPU,高速缓存带宽的限制降低了GPU执行计算重要重用数据的性能。