论文部分内容阅读
网络舆情在股票论坛中以股票评论形式存在,大多是海量的、非结构化、实时变化的,且大约90%的数据呈文本形式,投资者提炼论坛上的碎片信息来优化自身的投资决策,最终反馈成对股市的直接预测。因此采用网络爬虫技术爬取网络舆情数据,应用大数据技术解决海量数据存储处理问题,利用中文文本挖掘技术提取网络舆情中有价值的软信息,构建回归预测模型预测未来时段股票价格,是本文的研究重点。选取东方财富股吧的上证180指数股评文本数据和相应Wind数据库中的股票价格等相关指标作为研究对象,搭建Hadoop平台来解决数据量爆炸性增长带来的存储处理问题,在Hadoop上建立Hive对股评文本数据进行清洗处理,运用R语言实现股评文本的情感倾向分析及预测模型的搭建和可视化。预测结果可有效地帮助理清网络舆情与股票价格的关系,为相关政策的实施提供有效依据。论文开展具体工作如下:1.基于机器学习法的网络舆情指数测度,即对股评文本进行预处理、文本量化后与股市数据建立基于朴素贝叶斯、K最邻近算法、支持向量机的分类模型,经对各分类模型性能评估后发现,支持向量机的分类效果最好。基于情感词典的网络舆情指数测度,从数据堂下载的中文通用情感词典资源进行合并后得到基础情感词典和辅助情感词典,整理添加与金融领域相关的情感词典后得到一个种子词典,采用SO-PMI算法计算与种子词不匹配的股评文本词情感值,构建一个新型情感词典集。将两种方法进行分析比较,结果表明情感词典法更适合经济类的舆情指数测度。2.通过spearman秩相关系数来对网络舆情与股市收益率、收盘价及成交量间进行同步、超前、滞后的相关性分析,发现网络舆情在滞后收盘价时的相关性系数值最大,而超前收盘价时相关性系数值最小,再分析网络舆情与股票价格之间的Granger因果关系、网络舆情对股票价格的脉冲影响及其贡献度。结果表明通过网络舆情可以对股票价格进行预测。3.通过建立支持向量回归模型,研究股市处于平稳期、大幅度震荡期和缓慢增长期时网络舆情对股票价格影响差异,实验证实网络舆情对处在不同阶段的股票价格预测效果不同,收盘价的预测结果与真实值十分接近,就整个股市来讲,相对于长期预测,短期预测的性能较优越。