论文部分内容阅读
计算机科学与硬件信息处理能力的不断提升,给人工智能的持续发展提供了源源不断的动力,作为人机交互的一种重要手段,自然语言处理受到了广泛的关注。循环神经网络是自然语言处理常用的一种算法,近些年凭借其优异的时序学习能力,在大数据时代复杂的应用场景及严苛的计算效能要求下,逐渐取代传统算法,在机器翻译、文本分类及语音识别等领域取得了显著实用效果。由于循环神经网络节点规模大、网络结构复杂,其计算复杂度及时间复杂度一般高于传统算法,现有研究往往基于硬件平台对其进行并行化处理,但仍存在以下不足之处:(1)循环神经网络引入过往时刻信息作为当前输入,导致模型计算延迟较高,现有研究往往以大量资源消耗为代价对循环神经网络进行并行化处理,并未根据模型的特点设计硬件加速架构,在实际应用中与硬件平台契合度较差;(2)样本数据通常分布有冗余数值,这些数值对模型最终的状态更新作用不大,使得硬件加速架构冗余运算量较多,现有研究并未重点关注样本数据冗余性对硬件加速架构计算开销的影响;(3)为了更好的对序列数据信息进行学习,模型权值矩阵一般具备高维特性,在硬件加速设计中,高维权值矩阵会占据过多存储资源,数据加载实时性较差。基于以上问题,本文以降低循环神经网络加速架构计算延迟为目标,提出相应的解决方法,取得如下研究成果:1.针对循环神经网络计算延迟较高及现有架构与硬件平台契合度较差的问题,提出一种基于Roofline模型的计算架构设计方案。通过引入Roofline模型将计算通信比与带宽进行建模,对现有并行矩阵向量运算模式进行优化,进一步结合参数定点量化、流水计算及数据存储等技术提高加速器计算通信比。仿真实验表明,并行计算架构能有效降低模型计算延迟,与硬件平台契合度更好,且相比已有研究具备较高的能源效率。2.针对冗余样本数据对循环神经网络状态更新作用有限,导致并行加速架构无效运算量较多的问题,提出了一种基于样本数据冗余性的硬件加速设计方案。通过利用数据数值相似性构建稀疏样本数据,并设置数值门限过滤冗余样本数据,以进一步降低硬件加速架构计算开销。在MNIST标准数据集上的实验表明,当数值门限不超过0.5时,模型的检测准确率不变,计算开销得到了有效降低。3.针对模型高维权值矩阵占用过多存储资源、权值加载速度难以匹配硬件计算能力的问题,提出一种基于SVD奇异矩阵分解的权值矩阵压缩方法。通过应用SVD算法对高维权值矩阵奇异值进行提取,根据奇异值分布使用能量占比,自适应寻找高维矩阵的低维构造,以实现对权值矩阵的降维压缩。实验表明在不降低模型检测性能的前提下,最大可实现约40%左右的权值参数量压缩。