论文部分内容阅读
随着智能手持设备的广泛普及与人工智能高速发展,图像和视频成为主要的媒体信息传递方式。图像和媒体信息中包含了大量的自然场景,其中的文字信息具有重要的应用价值。场景字符识别技术引起了学术界的广泛研究,在信息检索、智能交通、实时翻译、网页检索等方面有着广泛的应用。由于自然场景图像中的文字背景复杂、光照变化、多变字体等因素,使得其检测与识别算法更加困难。随着场景字符算法的复杂性和图像处理工程规模的增长,大量的数据处理将消耗过多时间和能量,急需更快和高能效的解决方案。本文针对场景字符识别中的文本定位和字符识别两个关键步骤中最常用的HOG算法和CNN算法。针对场景字符识别应用下HOG算法和CNN算法串行实现存在高时延的缺陷,根据不同的设备特性并行设计和优化了异构平台的加速方案。在CPU+FPGA和CPU+GPU这两种常用的异构加速平台上加以实现和对比。本文首先设计了HOG算法的两种加速方案。对多内核(multiple kernels)HOG加速方案进行数据访问优化。在此基础上,针对FPGA设备的特点进行循环展开和向量化优化,对GPU设备规约增加并行。对于单内核(single kernel)HOG加速方案同样进行数据访问优化,对FPGA设备和GPU设备采用不同的方法克服局部内存写冲突。从系统层面设计了HOG特征提取和SVM特征分类的主机和设备间流水方案。其次设计了CNN算法的加速方案。在设备端通过卷积内核和全连接内核对该算进行加速。卷积内核通过合并卷积、池化和激励多种运算来减少内核数目和访存开销。同时利用神经网络权值共享的特点将数据高速缓存到设备端的片上内存。在此基础上,针对FPGA设备的特点通过向量化和资源整合优化,对GPU设备通过访存聚合优化。全连接采用矩阵乘法的一维并行方式,通过设备端的循环展开进行优化。GPU设备还通过规约增加并行。经实验对比,单内核HOG加速方案在两种平台上均比多内核HOG加速方案性能更好。针对单内核HOG加速方案,GPU异构平台获得更高的加速比,其速度是FPGA的4.1倍;FPGA异构平台获得更高的能效比,其能效是GPU的1.9倍。针对CNN算法,GPU异构平台获得更高的加速比,其速度是FPGA的4.7倍;FPGA异构平台同样获得更高的能效比,其能效是GPU的1.6倍。