论文部分内容阅读
Cho·K等学者在2014年提出了GRU(Gated Recurrent Unit)结构,这是一种非常重要的改进型循环神经网络RNNs(Recurrent Neutral Networks),其独特的结构赋予了它有效记忆和利用长期历史信息的能力,目前它已经在音频分析、图像识别以及文本处理等众多领域的到了广泛而成功的应用。GRU使深度神经网络在运算时减少了很多矩阵乘法,改善了RNNs训练耗时的缺点。激活函数是GRU深度神经网络结构的核心所在,常见的激活函数有sigmoid、tanh、ReLU(Rectified Linear Units)、PReLU等,各种激活函数的特性决定了它们在不同的神经网络结构上的性能。sigmoid和tanh函数都是严格递增的饱和非线性函数,不仅给神经网络引入了非线性,而且其输出阈值是固定的,这个特性能够保证输入的序列数据在向后面节点传递的过程中不容易发散。可惜的是, sigmoid和tanh两侧软饱和的特性使得神经网络在后向传递的过程中出现了严重的梯度消失(Gradient Vanishing)问题,极大地降低了神经网络的训练速度。非饱和线性函数ReLU虽然能够有效的避免梯度消失问题,但由于均值偏移(BiasShift)现象的存在,导致使用ReLU激活函数的网络收敛性受到了很大的负面影响。关于如何选取合适的激活函数目前并没有统一的定论,仍然需要具体的实验指导,因此在不同的神经网络结构上对不同激活函数的性能进行比较和分析对神经网络的实际应用具有重大的指导意义。 本研究主要内容包括:⑴分析了各个激活函数的优缺点,在GRU结构上对各个激活函数进行了实验、测试和比较,并给出了详细的实验结果分析,旨在为在GRU结构上进行激活函数的优化研究提供参考;⑵介绍了一种新的思路解释了ReLU函数能缓解训练饱和现象的原因,并给出了公式推导过程对这个思路进行了数学证明;⑶提出了一种新的激活函数TLU,并将这个激活函数应用于语言模型的训练中,训练结果显示,与sigmoid、tanh、ReLU、PReLU等激活函数相比,TLU在提升神经网络训练速度方面的作用非常显著,并且也能够把误差控制在一个可以接受的范围内。