论文部分内容阅读
针对应用于语音识别中的卷积神经网络,为了提高能耗比,将网络在FPGA中进行定制化实现,并通过PCIe完成了FPGA与主机的交互.对该网络定点仿真结果表明,整体采用16位定点计算可以在保证精度的情况下有效地减少数据存储量和带宽要求.采用多种复用方式进行卷积层与全连接层的速度优化,并与流水线结构相结合,提高系统了的吞吐率,在系统150 MHz的时钟频率下达到了3 715fps的速度.