论文部分内容阅读
随着GPU计算时代的到来,大量并行性的程序越来越多地使用GPU的并行计算能力来获得更高的性能和效率。如今,GPU并行计算使以前认为由于执行时间长而无法实现的程序成为可能。压缩感知光声计算机层析成像(compressed sensing-photoacoustic computed tomography,CS-PACT)是一种常用的医学图像重建方法,可以在稀疏采样的情况下生成高质量的图像。然而,由于CS-PACT是一个需要几十到几百次迭代的重建过程,计算复杂度高,使得图像重建过程非常慢。因此,为了提高图像重建速度,本文将GPU应用到光声图像重建中,重点探索了CS-PACT算法的GPU并行计算框架和计算方法。本文的主要研究内容如下:(1)小图像尺寸下的GPU并行计算模型和方法。本文提出了迭代重建算法的GPU并行计算架构,主要是提取了5类主要的并行化算子,然后对其进行并行设计,并运用优化方法对其优化。最后通过两个不同的人手数据(128*128,256*128)进行定性与定量分析,来证明GPU重建图像的准确性。对于128*128(像素)人手1的B-scan光声图像实现了1.9-2.5s的图像重建速度,比CPU性能快24-31倍。对于256*128的人手2的B-scan光声图像实现了5s-8s的图像重建速度,比CPU性能快26-28倍。(2)大图像尺寸下的GPU并行计算模型和方法。在对大图像进行重建的过程中,测量矩阵K造成内存溢出,无法对图像进行重建。针对这个问题,本文提出了基于CUDA流的GPU并行计算架构,将大块图像分成多块小图像,采用CUDA流对小块图像进行光声重建。针对每一小块图像的光声重建,本文分析并设计具体的核函数来实现,然后通过仿体插针实验和小老鼠实验来证明GPU重建图像的准确性以及与CPU相比性能加速效果,对于仿体插针实验实现了与CPU相比37倍的加速,并测出在使用不同CUDA流数目下,小块图像的重建时间,证明了使用CUDA流可以实现运算加速,对于小老鼠实验实现了38-42倍的加速。