论文部分内容阅读
当今社会,股票已成为一种重要的金融工具被大众广泛接受,作为经济运行的“晴雨表”,股票投资也成为越来越多人的理财手段,实现股票价格的预测对实现理财目标、稳定经济发展具有重要的影响。过去互联网只是一个简单的信息发布技术平台,随着网络技术的发展,互联网已变为一种重要的社会化媒体,网络信息在不同领域的应用也越来越广泛。很多上市公司开通了官方微博,通过微博来发布消息,并积极与网友互动;而投资者则可以在股票论坛中交流讨论,发布个人观点或对他人的信息进行评论,进而利用这些网络信息制定或调整投资决策。在这样的背景下,将网络信息加入到股票行业的研究中,实现更为精准的股票价格涨跌预测具有重要的学术意义和现实意义。本文研究的主要目标是利用股票交易的基本面数据和股民网络评论实现股票价格涨跌预测,构建具有推广、参考价值的综合预测体系,实现互联网舆情分析和股票金融研究间的相互促进。研究过程中采用了网络爬虫、自然语言处理、机器学习、深度学习、计量经济学等技术,具有很强的学科交叉性。首先,本文通过网络爬虫技术爬取东方财富网股吧论坛中股民对股价波动的预期、评论文本,以及证券机构对股票行业的研究报告,先对这些网络文本进行分词处理,描述统计实现初步的处理和筛选,同时从股票数据库中获取沪深300指数成份股2018年每个交易日的交易数据。其次,运用自然语言处理技术将评论文本进行处理,分析文字背后蕴含的情感态度,获得评论文本情感得分,经过加权、匹配、衰减等处理,将评论情感得分与股票、交易日一一对应。然后在当下运用广泛、效果优异的机器学习算法中选择最新的适合二分类预测的CatBoost算法,以及善于实现时间序列、顺序关联的LSTM算法对整理好的数据建模,分别训练300支股票综合的CatBoost算法、每一只股票的CatBoost算法、每一只股票价格的LSTM算法,从不同的角度研究影响股价涨跌的影响因素及其影响程度,实现初步的股价涨跌预测。最后将三个算法实现的股价涨跌预测结果用计量Logit模型进行整合,充分考虑到三个算法各自对股价涨跌预测的准确率,构建综合股价涨跌预测体系,进一步提升预测精度,并提升该模型的实践推广价值。结果显示:股票网络评论对股价的涨跌具有较明显的影响作用,且该作用具有滞后效应,除此之外,股票的基本信息和交易量数据对股价的涨跌影响也很明显;300支股票综合的CatBoost算法对股价涨跌预测的准确率为54.13%,并且存在“看跌”预测的明显偏斜;对每一只股票分别进行CatBoost算法训练后,股价涨跌预测的平均准确率上升至60.67%,预测的偏斜也有了明显的缓解;对每一支股票的股价搭建LSTM神经网络后,股价涨跌预测的平均准确率进一步上升至64.22%;上述三个算法对股价涨跌预测结果通过Logit模型复合以后,平均准确率达到70.20%,同时对股价下跌情况的预测精度很高,能有效帮助投资者识别风险。本文得出的结论均为沪深300指数成分股上的平均结果,有效排除了因选股不同而导致准确率偏高或偏低的随机性,具有更强的推广价值。综上,本文利用丰富的网络评论文本和股票交易数据,进行新兴机器学习算法训练,设计股价涨跌综合模型,不仅证明网络股评对股价涨跌具有显著影响,还在沪深300成分股股价涨跌预测上获得了较好的效果,在学界和实践领域都具有一定的推广价值。