论文部分内容阅读
【摘要】由于神经网络自身的高度自学习性,稳定性以及抽象模拟能力,相比于统计学以及计量经济学中的数学模型,神经网络用于预测金融时间序列更具优势。本文在深入分析LSTM神经网络对股指进行短期时间序列预测的可行性。
【关键词】LSTM RNN 神经网络 股指预测
一、LSTM神经网络分析
LSTM(长短时记忆)神经网络是建立在RNN上的一种新型深度机器学习神经网络。在这个模型中LSTM单元包含一个尝试将信息储存较久的存储单元。这个记忆单元的入口被一些特殊的门控制,被控制的功能包括保存、写入和读取操作。这些门都是逻辑单元,它们负责在神经网络的其它部分与记忆单元连接的边缘处设定权值。这个记忆单元是一个线型的神经元,有自体内部连接。具体来说就是其在每一个神经元内部加入了三个门,分别是输入门、输出门和忘记门。用来选择性记忆反馈的误差函数随梯度下降的修正参数。当忘记门被打开时,自己连接权值为1,记忆单元将内容写入自身。当忘记门输出为0时,记忆单元会清除之前的内容。输出门允许在输出值为1的时候,神经网络的其它部分将内容记入记忆单元,而输入门则允许在输出值为1的时候,神经网络的其它部分读取记忆单元。模型结构如下:
Cell,就是神经元状态的记忆,有个叫做state的参数来记录状态的。Forget Gate:将上一次神经元的状态选择性遗忘修正参数。对于每个存储单元,三套权重从输入训练而得,包括先前时间步中完整的隐藏状态。一个带入到输入节点,在上图的底部。一个带入到忘记门,在最右侧显示。另一个带入到输出门,在顶部最左侧的显示。每个黑色节点与一个激活函数相关联,典型的激活函数为S型函数。单元中最中央的节点即内部状态,并且以数量1为权重来跨越时间步,再反馈到本身。内部状态的自连接边,被称为恒定误差传送带或CEC。
以前传递为例,输入门来决定何时让激活状态传入存储单元cell,而输出门决定何时让激活传出存储单元,这些都是通过训练学习而确定的。最后忘记门用来学习是否记忆上一个神经元状态的全部或部分或完全遗忘。后传递也是同样的道理,输出门是在学习什么时候让误差流入存储单元,而输入门则学习什么时候让它流出存储单元,并传到神经网络的其它部分。忘记门也是一样。以下按照一般算法的计算顺序来给出每个部分的公式:
带下标L的是跟Input Gate相关的,连向Input Gate包括:外面的输入,来自Cell的那个虚线(虚线叫做peephole连接),带H的是一个泛指,因为LSTM的一个重要特点就是其灵活性,cell之间可以互联,hidden units之间可以互联,所以这个H就是泛指这些连进来的东西,可以看成是从外面连进了的三条边的一部分。
FORGET GATE:
后向传播中的偏微分求导由于非常复杂,在这里就不赘述了,只要明白对每个门中经过的参数求偏导是为了按梯度的方向进行收敛并修正权值。
二、LSTM神经网络模型的优势及问题
LSTM的出现的原因其实是因为RNN转换成超级长的传统神经网络后,利用BP反向传播的时候,误差会逐级减小,但由于展开的太长了,误差需要归因到每一层每一个神经元,这会导致整个训练过程无法逃离局部最优解。LSTM正是解决了这个问题,他将每一层的神经元设计成具有多个“门”的结构,这使得误差在传播过程中,有些可以直接通过“门”,不用归因于当前神经元,误差就完好无损的直接通过到下一层了,因此收敛性很好。
三、LSTM神经网络模型的算法改进
α学习速率是与误差函数的一阶导数相乘,来控制随梯度下降的步长的,虽然α是变化的但是每一次归因对于每个自变量来说是相同的。可以将α设为误差函数的二阶导数,这样以每一自变量下降的不同速度来随梯度下降。这种改变的理论依据源于著名的数学理论拟牛顿法。
具体公式为:wn∈w=wold+H-1wold
这里的w为权值的向量矩阵,H-1为hessian矩阵,这里就是将学习速率α设为误差函数的二阶导数,从而使每一个自变量(权值)下降的速度随各自梯度下降,使模型收敛的更加准确。
四、实证分析
研究对象:选取日成交量最大的标普500指数作为基础研究对象来验证模型的准确性,运用LUA语言进行编程,并以TORCH作为深度学习框架。进行训练预测拟合图形并计算误差。
LSTM模型预测误差均值为0.783%股指。模型收敛的更小,误差更小,模型预测准确。
参考文献
[1]Andrej Karpathy.The Unreasonable Effectiveness of Recurrent Neural Networks[R].,2015.3.
[2]胡新辰.于LSTM的语义关系分类研究[M].哈尔滨工业大学.2015.6.
[3]李小燕.灰色神经网络预测模型的优化研究[D].武汉理工大学.2009.
作者简介:唐寅(1991-),男,汉族,贵州金沙人,现就读于首都经济贸易大学,硕士学位,研究方向:电子商务。
【关键词】LSTM RNN 神经网络 股指预测
一、LSTM神经网络分析
LSTM(长短时记忆)神经网络是建立在RNN上的一种新型深度机器学习神经网络。在这个模型中LSTM单元包含一个尝试将信息储存较久的存储单元。这个记忆单元的入口被一些特殊的门控制,被控制的功能包括保存、写入和读取操作。这些门都是逻辑单元,它们负责在神经网络的其它部分与记忆单元连接的边缘处设定权值。这个记忆单元是一个线型的神经元,有自体内部连接。具体来说就是其在每一个神经元内部加入了三个门,分别是输入门、输出门和忘记门。用来选择性记忆反馈的误差函数随梯度下降的修正参数。当忘记门被打开时,自己连接权值为1,记忆单元将内容写入自身。当忘记门输出为0时,记忆单元会清除之前的内容。输出门允许在输出值为1的时候,神经网络的其它部分将内容记入记忆单元,而输入门则允许在输出值为1的时候,神经网络的其它部分读取记忆单元。模型结构如下:
Cell,就是神经元状态的记忆,有个叫做state的参数来记录状态的。Forget Gate:将上一次神经元的状态选择性遗忘修正参数。对于每个存储单元,三套权重从输入训练而得,包括先前时间步中完整的隐藏状态。一个带入到输入节点,在上图的底部。一个带入到忘记门,在最右侧显示。另一个带入到输出门,在顶部最左侧的显示。每个黑色节点与一个激活函数相关联,典型的激活函数为S型函数。单元中最中央的节点即内部状态,并且以数量1为权重来跨越时间步,再反馈到本身。内部状态的自连接边,被称为恒定误差传送带或CEC。
以前传递为例,输入门来决定何时让激活状态传入存储单元cell,而输出门决定何时让激活传出存储单元,这些都是通过训练学习而确定的。最后忘记门用来学习是否记忆上一个神经元状态的全部或部分或完全遗忘。后传递也是同样的道理,输出门是在学习什么时候让误差流入存储单元,而输入门则学习什么时候让它流出存储单元,并传到神经网络的其它部分。忘记门也是一样。以下按照一般算法的计算顺序来给出每个部分的公式:
带下标L的是跟Input Gate相关的,连向Input Gate包括:外面的输入,来自Cell的那个虚线(虚线叫做peephole连接),带H的是一个泛指,因为LSTM的一个重要特点就是其灵活性,cell之间可以互联,hidden units之间可以互联,所以这个H就是泛指这些连进来的东西,可以看成是从外面连进了的三条边的一部分。
FORGET GATE:
后向传播中的偏微分求导由于非常复杂,在这里就不赘述了,只要明白对每个门中经过的参数求偏导是为了按梯度的方向进行收敛并修正权值。
二、LSTM神经网络模型的优势及问题
LSTM的出现的原因其实是因为RNN转换成超级长的传统神经网络后,利用BP反向传播的时候,误差会逐级减小,但由于展开的太长了,误差需要归因到每一层每一个神经元,这会导致整个训练过程无法逃离局部最优解。LSTM正是解决了这个问题,他将每一层的神经元设计成具有多个“门”的结构,这使得误差在传播过程中,有些可以直接通过“门”,不用归因于当前神经元,误差就完好无损的直接通过到下一层了,因此收敛性很好。
三、LSTM神经网络模型的算法改进
α学习速率是与误差函数的一阶导数相乘,来控制随梯度下降的步长的,虽然α是变化的但是每一次归因对于每个自变量来说是相同的。可以将α设为误差函数的二阶导数,这样以每一自变量下降的不同速度来随梯度下降。这种改变的理论依据源于著名的数学理论拟牛顿法。
具体公式为:wn∈w=wold+H-1wold
这里的w为权值的向量矩阵,H-1为hessian矩阵,这里就是将学习速率α设为误差函数的二阶导数,从而使每一个自变量(权值)下降的速度随各自梯度下降,使模型收敛的更加准确。
四、实证分析
研究对象:选取日成交量最大的标普500指数作为基础研究对象来验证模型的准确性,运用LUA语言进行编程,并以TORCH作为深度学习框架。进行训练预测拟合图形并计算误差。
LSTM模型预测误差均值为0.783%股指。模型收敛的更小,误差更小,模型预测准确。
参考文献
[1]Andrej Karpathy.The Unreasonable Effectiveness of Recurrent Neural Networks[R].,2015.3.
[2]胡新辰.于LSTM的语义关系分类研究[M].哈尔滨工业大学.2015.6.
[3]李小燕.灰色神经网络预测模型的优化研究[D].武汉理工大学.2009.
作者简介:唐寅(1991-),男,汉族,贵州金沙人,现就读于首都经济贸易大学,硕士学位,研究方向:电子商务。