论文部分内容阅读
随着科学技术的发展,许多的数据需要通过神经网络进行分析和处理。这其中大部分数据都具有时序或上下文前后的相关性,例如语音、文本、图片、视频等,而循环神经网络能够利用自身特点很好的处理这些具有序列依赖的数据。传统循环神经网络作为深度学习领域的一部分,在处理越来越复杂的问题的时候仍然存在许多不足,例如如何在深层网络训练中仍能保持良好的学习效果,又或是如何进一步提高循环神经网络的训练速度和准确性等。针对上述两方面问题,本文结合基于门结构的长短期记忆(LSTM)和门结构循环单元(GRU)等模型,提出了门结构循环神经网络的改进模型:(1)针对深层神经网络中收敛较慢和训练效果较差的问题,本文结合Highway网络等用于解决深层神经网络学习效率的模型,提出了一种将层间信息进行跨层连接的门结构单元(Cross-layer Gated Unit,CGU),使得不同层之间的数据在反向梯度下降的过程中也能像LSTM和GRU那样对层间数据进行选择和遗忘,从而提高深层网络下的模型学习效果。(2)针对浅层神经网络如何进一步提高模型的训练速度和准确性的问题,本文结合了 GRU和最小门结构单元(Minimal Gated Unit,MGU),提出了两种简化的门结构单元(Simplified Gated Unit,SGU),从结构上分为 SGU-u 和 SGU-m。SGU 通过减少门结构数量,改变门结构连接,尝试减少门结构学习过程中的参数训练量,在保持剩余门结构有效工作的同时,提高模型的训练速度。针对上述改进的门结构,本文选取了 MNIST图像识别、PTB语言文字和Quick Draw手绘图像数据集,对改进模型和传统RNN、LSTM、GRU以及相关文献中的模型等进行了对比测试。实验结果表明,基于CGU扩展的门结构能够很好的应用在深层神经网络,基于SGU-u简化的门结构的训练速度优于MGU和GRU,而SGU-m模型表现欠佳,表明了不同的门结构在训练过程中具有不同功能和重要性。