神经网络GRU的激活函数研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jerryymy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Cho·K等学者在2014年提出了GRU(Gated Recurrent Unit)结构,这是一种非常重要的改进型循环神经网络RNNs(Recurrent Neutral Networks),其独特的结构赋予了它有效记忆和利用长期历史信息的能力,目前它已经在音频分析、图像识别以及文本处理等众多领域的到了广泛而成功的应用。GRU使深度神经网络在运算时减少了很多矩阵乘法,改善了RNNs训练耗时的缺点。激活函数是GRU深度神经网络结构的核心所在,常见的激活函数有sigmoid、tanh、ReLU(Rectified Linear Units)、PReLU等,各种激活函数的特性决定了它们在不同的神经网络结构上的性能。sigmoid和tanh函数都是严格递增的饱和非线性函数,不仅给神经网络引入了非线性,而且其输出阈值是固定的,这个特性能够保证输入的序列数据在向后面节点传递的过程中不容易发散。可惜的是, sigmoid和tanh两侧软饱和的特性使得神经网络在后向传递的过程中出现了严重的梯度消失(Gradient Vanishing)问题,极大地降低了神经网络的训练速度。非饱和线性函数ReLU虽然能够有效的避免梯度消失问题,但由于均值偏移(BiasShift)现象的存在,导致使用ReLU激活函数的网络收敛性受到了很大的负面影响。关于如何选取合适的激活函数目前并没有统一的定论,仍然需要具体的实验指导,因此在不同的神经网络结构上对不同激活函数的性能进行比较和分析对神经网络的实际应用具有重大的指导意义。  本研究主要内容包括:⑴分析了各个激活函数的优缺点,在GRU结构上对各个激活函数进行了实验、测试和比较,并给出了详细的实验结果分析,旨在为在GRU结构上进行激活函数的优化研究提供参考;⑵介绍了一种新的思路解释了ReLU函数能缓解训练饱和现象的原因,并给出了公式推导过程对这个思路进行了数学证明;⑶提出了一种新的激活函数TLU,并将这个激活函数应用于语言模型的训练中,训练结果显示,与sigmoid、tanh、ReLU、PReLU等激活函数相比,TLU在提升神经网络训练速度方面的作用非常显著,并且也能够把误差控制在一个可以接受的范围内。
其他文献
电荷耦合器件(Charge coupled device,CCD)是空间对地遥感、天基目标观测、宇宙天文观测领域应用的核心成像器件。然而,空间辐射环境是应用于空间的CCD面临的主要威胁,辐射环境
学位
绘画是视觉艺术,而视觉的传达是以物象作为媒介来反映画家主观感觉.要想作品感动别人,在作画时,面对物象作者自己要首先有所感动.色彩风景写生是面对自然景物而作画.
因为太赫兹波的独特性质,太赫兹技术在安全检测、宽带通信、医疗检测和空间技术等应用领域具有广阔的发展前景。然而通常所用的探测装置造价昂贵、工作条件易受环境影响,对太赫
学位
随着半导体技术节点发展到14nm及以下,传统硅基半导体器件已经达到了等比例缩小的极限,短沟道效应对器件的继续缩小提出了严峻的考验。寻求新材料和新的器件结构一直是科研以及
生物对多变环境的适应能力,决定了其种群大小和个体延续。对大多数生物而言,温度的变化对其影响最为深刻,而生物对温度变化的适应能力存在很大的差异性。鱼类由于栖息环境的多样
学位
三型分泌系统(Type III secretion system,T3SS)是革兰氏阴性致病菌重要的毒力分泌系统。耶尔森氏菌T3SS由pYV或者pCD毒力质粒编码,通过针状注射体结构将毒力效应因子(Yops蛋
学位