论文部分内容阅读
深层卷积神经网络是人工神经网络在图像识别领域的一个研究热点,其目的是通过多层的网络结构进行复杂特征的提取并给出图像所属类别等属性。cuda-convnet深层卷积神经网络算法在处理批量图像时速度较快,但是在实际应用中,往往需要对一幅给定的图像进行识别测试,这就导致算法的效率不高。因此,在深入理解cuda-convnet深层卷积神经网络算法的基础上,本文提出了一种新的算法,对原有算法进行了速度优化。 本文首先阐述了cuda-convnet算法的卷积操作,指出了它存在的问题,然后提出了新的并行算法---特征图与像素并行算法。在该算法中,图像被分割为与卷积核大小相同的若干模块,在特征图与像素并行方向,线程块内的每个线程完成卷积核通道中的若干像素对图像对应特征图中一个模块的对应像素的卷积,那么若干线程的卷积结果的加和就是卷积核对一幅图像的一个模块的卷积。在卷积核并行方向,依次完成所有卷积核对一幅图像的一个模块的卷积,然后再遍历图像的所有模块,即完成了所有卷积核对一幅图像的所有模块的卷积,卷积得到的图像具有与卷积核数量相同的特征图。最后,通过实验分别测试各个卷积层的卷积用时和整幅图像用时,其中,本文提出的算法的整幅图像用时为2.2ms,相比cuda-convnet算法其速度提高了6倍,具有一定的应用价值。