论文部分内容阅读
股票市场作为金融市场的重要组成部分,在金融领域中具有举足轻重的地位。无论是在学术领域还是股票投资领域,人们都对股票市场的预测研究充满极大兴趣。传统的股市预测研究大多从股票市场自身角度出发,根据股票市场的历史价格数据,交易量等进行预测研究,很少从互联网财经新闻的角度来探讨新闻与股票市场间的联系。自从进入互联网时代,信息的传播与获取更加迅速便捷,投资者能够通过互联网财经网站及时获取相关信息,辅助投资者进行投资决策判断,因此研究财经新闻对股票市场的影响以及如何利用新闻信息对股票市场进行预测具有重要现实意义。本文基于财经新闻文本信息,从文本挖掘的角度研究了财经新闻对股票市场的影响及预测。由于文本信息是非结构化的数据,首先需要对收集到的财经新闻文本进行处理,运用R语言软件对财经新闻进行文本分割,特征提取,从海量文本信息中提取出关键词并得到关键词词频,对关键词进行聚类分析,初步筛选关键词。然后运用随机森林算法,基于关键词的重要性排序对关键词进行进一步的降维处理,得到最终导入模型分析的关键词变量。股票市场代理变量则选择了上证指数,将指数的上涨,下跌作为一个已知二分类问题,分别用1和0表示。在数据处理方面,分别对关键词百度指数数据和上证指数数据进行了处理,用取对数后的百度指数代替直接获得的百度指数数据,根据每个交易日的上证指数数据计算出了当日收益率。最后结合处理后关键词百度指数数据和上证指数数据,运用SVM算法进行模型拟合预测,并依据预测结果构建模拟交易策略,将交易收益与同时期指数收益比较,分析能否获得超额收益。同时作为对照组,运用随机森林算法进行模型拟合预测及构建交易策略,对比两种方法下的预测效果和模拟交易收益差异。考虑到股票市场的周期性,分别选取了牛市市场阶段和熊市市场阶段的财经新闻数据及上证指数数据,对比研究财经新闻在不同的市场行情阶段对股票市场的影响是否存在差别,以及基于财经新闻对股票市场的预测在不同的市场行情阶段是否存在显著差异。通过以上研究,本文主要得到了以下四条结论:(1)财经新闻文本与股票市场间存在一定关系,基于财经新闻文本的股市预测模型无论是在牛市阶段还是熊市阶段,都取得了良好的预测效果。(2)在不同市场行情阶段,互联网财经新闻与股票市场关系的密切程度存在较大差异,基于财经新闻文本的股市预测效果在不同市场行情下具有一定差异,在牛市阶段,财经新闻与股票市场关系的密切程度更大,基于SVM算法和随机森林算法的模型在牛市期间的预测效果比两种模型在熊市期间的预测效果更好;(3)采用不同的模型方法会影响财经新闻文本对股票市场的预测效果,但无论在牛市阶段还是熊市阶段,SVM模型的预测效果都优于随机森林模型的预测效果,但两者间差值并未随市场所处环境不同而表现出大幅波动。(4)股票市场所处的周期行情阶段会影响根据预测结果构建的交易策略收益。在牛市阶段,基于预测结果构建的交易策略微具优势,两个模型的收益率都高于同期指数收益率;在熊市阶段,两个模型的收益率均高于同期指数收益率,基于SVM模型预测结果的收益大幅跑赢市场。两种模型的交易收益分别在特定的市场行情阶段下具有优势。在牛市阶段,基于随机森林算法的交易策略收益率优于SVM算法下的交易策略收益率,而在熊市阶段,结果则相反,SVM算法的交易策略收益大幅高于基于随机森林算法的交易策略收益。