论文部分内容阅读
股票市场一直以来都是诸多投资者和学者非常感兴趣的领域,股价优美的波动,使无数学者为之着谜;对许多投资者而言,如果能预测股票市场未来的动向,便能提前改变投资决策,从而帮助自己获取超额利润。虽然影响股票市场走势的因素很多,大到国家政策变动、外部的市场环境和自然灾害等;小到企业自身经营状况、负债能力等财务指标,但是这些影响因素最终都以信息的形式进行传递,投资者可通过媒体和其他渠道,获取这些信息并依据此信息做出相应的投资决策,从而引起股市的波动。我们经常会看到国家或上市公司公布一些重要的新闻,一旦发布此新闻,它将在网络媒体上快速传播。不论发布的新闻所携带的信息是好还是坏,它都会有意或无意地影响投资者的投资决策,从而导致股市波动。而且股票市场的波动状态也会通过新闻媒体以信息的形式转递给股票市场参与者,股票市场的参与者将根据获得的信息改变他们的投资决策。特别是随着互联网的普及,更多的人使用互联网获取信息,这使得互联网财经新闻的影响力度更强,影响范围更广。因此研究互联网财经新闻与股价波动的关系,为股市参与者的交易活动提供一些合理化的建议,显得尤为重要。本文基于文本处理技术、回归分析、支持向量机和随机森林算法,以上证50指数的成分股作为本文研究对象,研究财经新闻与股价波动之间的关系。本文使用python编写网络爬虫代码,获取新浪财经网站上2017年1月1日至2018年12月31日期间发布的上证50指数成分股财经新闻以及网易财经网站上证50指数成分股的股票价格历史数据。为了把非结构化数据转为结构化数据,首先利用文本分词量化技术,对所获取得财经新闻文本进行分词量化,提取分词后权重值前100的关键词。其次为了降低维度和矩阵的稀疏性,便于后续分析,将新闻关键词分为7个类别的词语,并计算每一类词语在每一篇财经新闻中的权重值,剔除无关词汇,得到最终财经新闻量化数据。最后将财经新闻量化数据和股票价格历史数据进行匹配与数据清洗,得到用于建模的数据。为了探讨财经新闻与股票价格波动之间的关系以及不同类别词语与股价波动的密切程度,本文以6类词语的权重作为每篇财经新闻的特征,以财经新闻发布后的股票价格涨跌幅度和涨跌趋势方向为目标变量。分别利用回归分析、支持向量机和随机森林算法建立模型。考虑到股票价格历史数据本身是一个时间序列,为准确量化财经新闻与股价波动的关系,提高模型的准确度,建模过程中加入了股票历史数据因子。通过实证分析得到以下结论:财经新闻与股价之间存在复杂的非线性关系,而这种关系在新闻发布后的第一天最大。互联网财经新闻文本中情感褒义词、积极公司经营状况类和情感贬义词这三类词语与股价波动有密切关系,而积极交易类、消极交易类和消极公司经营状况类与股价波动的关系并不很高。加入股票价格历史数据建立的模型,比仅仅用财经新闻量化数据建立的模型在各方面表现都更佳,不仅可提高分类器的分类准确率还能降低回归器的均方根误差。考虑到国内股票二级市场的T+1交易政策,选择每日收盘价作为研究层面。互联网财经新闻文本对股价价格的最佳预测时间是新闻发布后的第一个交易日收盘价。通过一个简单的投资交易策略模拟投资,证实了利用新闻发布后的第一个交易日收盘价的预测结果进行股票投资可以获得一定的收益。