论文部分内容阅读
股票是股份公司发行的所有权凭证,是股份公司为筹集资金而发行给各个股东作为持股凭证并借以取得股息和红利的一种有价证券。每股股票都代表股东对企业拥有一个基本单位的所有权。每家上市公司都会发行股票。这种所有权为一种综合杈利,如参加股东大会、投票表决、参与公司的重大决策、收取股息或分享红利差价等,但也要共同承担公司运作错误所带来的风险。获取经常性收入是投资者购买股票的重要原因之一,分红派息是股票投资者经常性收入的主要来源。股票自诞生以来,便被赋予了特殊的商业价值,预测股票的价格走势,可以帮助股票投资者找到更好的交易时间。如今人工智能的科技成果应用范围广泛,提高了生产力,其核心技术是机器学习,神经网络和深度学习。在历史上有不少科学家曾借助神经网络来对股票进行预测,但是局限于当时的科技条件,无法更高精度的进行预测,如今AI的理论基础有了很大的发展,针算机硬件设施性能也出现飞跃,利用RNN,LSTM等神经网络可以更好地对类似于股票价格的时间序列进行预测。股票虽然只是一种凭证,但由于股票的持有人凭着股票可获得一定的经济利益并享有相应的权利,所以股票是一种有价证券,并具有以下性质:不可偿还性,参与性,收益性,流通性,价格波动性和风险性。预测股票的方法主要有两种:基本面分析和技术分析。基本面从字面上的意思可以理解为共同拥有的属性指标这一方面,按股票的基本面来讲,是指那一些各自都拥有的基本情况的汇总。一般我们所讲的基本面分析是指对宏观经济面、公司主营业务所处行业、公司业务同行业竞争水平和公司内部管理水平包括对管理层的考察这诸多方面的分析,数据在这里充当了最大的分析依据,但往往不能以数据来做最终的投资决策,如果数据可以解决问题,那计算机早就代替人脑完成基本面分析,事实上除了数据还要包括许许多多无法以数据来衡量的东西。技术分析是指以市场行为为研究对象,以判断市场趋势并跟隨趋势的周期性变化来进行股票及一切金融衍生物交易决策的方法的总和。技术分析认为市场行为包容消化一切信息、价格以趋势方式波动、历史会重演。目前人工智能领域所使用的核心算法是机器学习算法,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。人工智能领域的神经网络是指由大量的处理单元(神经元)互相连接而形成的复杂网络结构,是对人脑组织结构和运行机制的某种抽象、简化和模拟。人工神经网络以数学模型模拟神经元活动,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。MLP(Multi-Layer Perception),即多层感知机,是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练MLP。MLP是ANN的推广,克服了感知器无法实现对线性不可分数据识别的缺点。循环神经网络(RNN)是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘.本文将了解股票市场的基本参数,股票市场的基本趋势,分析股票预测的难点。本文尝试利用神经网络,通过分析历史股票数据来预测未来股票的收盘价,文中介绍了人工神经网络(ANN),BP神经网络,循环神经网络(RNN)以及长短期记忆序列(LSTM)。深入了解了RNN和LSTM神经网络的实现原理,在分析比较的基础上,理解LSTM相对于RNN的优势的同时,同时使用RNN和LSTM神经网络进行实验,对股票数据集进行模拟预测,并确认训练模型用于预测股票价格后的可行性和预测准确性。通过使用神经网络分析股票的前60天数据,来预测第61天的收盘价,以此来预测股票的走势。在实验中,我获取了上证A股、深证A股和创业板共计超过3000支股票的日线数据,每一支股票都包含了其从上市直至2016年左右,期间若干天的日线数据,每一条数据都包含有开盘价,收盘价,最高价,最低价,换手率,交易量等字段。对于收集到的数据集,首先要进行数据预处理,对缺失的数据进行适当地填补。归一化特征是数据挖掘的一项基础工作,由于不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。实验中我选择使用RNN和LSTM分别进行预测,并且将结果进行对比。Luca Di Persio曾使用神经网络对道琼斯指数进行预测,他的预测方法是使用前30天日线数据预测第31天收盘价,整体正确率维持在60%左右,为了提高预测准确度,我的实验将使用股票数据的前60天日线数据来预测第61天的收盘价,并且为了使该系统更加实用,系统会进行计算,判断预测日的收盘价的涨跌,并使用预测涨跌的正确率作为系统的正确率,在训练和预测的过程中,每一次预测的输入是60天的股票日线数据,输出为第61天的收盘价,并且使用预测值減去前一天收盘价,如果结果为正,记为涨,结果为负记为跌,然后计算正确的预测结果所占百分比,即可得到预测准确率。在分析实验结果时发现,RNN的预测性能稍好于LSTM,尽管预测的准确率起伏波动较大,但是RNN平均预测准确率高于LSTM。通过计算得出,RNN对上证A股个股的平均预测准确率在62.2%左右,对深证A股个股的平均预测准确率约为64.5%,对创业板股票的平均预测准确率为59.3%。LSTM对上证A股个股的平均预测准确率在54.1%左右,对深证A股个股的平均预测准确率约为53.6%,对创业板股票的平均预测准确率为50.4%。本文将了解股票市场的基本参数,股票市场的基本趋势,分析股票预测的难点。本文尝试利用神经网络,通过分析历史股票数据来预测未来股票的收盘价,文中介绍了人工神经网络(ANN),BP神经网络,循环神经网络(RNN)以及长短期记忆序列(LSTM)。深入了解了RNN和LSTM神经网络的实现原理,在分析比较的基础上,理解LSTM相对于RNN的优势的同时,同时使用RNN和LSTM神经网络进行实验,对股票数据集进行模拟预测,并确认训练模型用于预测股票价格后的可行性和预测准确性。通过使用神经网络分析股票的前60天数据,来预测第61天的收盘价,以此来预测股票的走势。本文的组织结构为:第一章介绍了本文的研究背景和内容、国内外研究现状以及本文的组织结构。第二章阐述了影响股价走势的主要因素、预测方法和难点,介绍了深度学习和神经网络,分析比较了不同神经网络之间的功能差异,比较了不同神经网络的优缺点,选择最合适的神经网络。第三章为实验部分。实验部分包括数据准备、数据处理、神经网络选择、模型构建和训练模型。第四章比较了RNN和LSTM预测的实验结果,分析了两种模型的预测性能和精度,并进行了比较,最后得出结论。第五章为总结与展望。