论文部分内容阅读
在传统的股市研究分析中常常需要人工凭借经验对股票交易指标进行判断,然而对于大多数投资者来说,他们并不具有专业的投资理论和金融知识,面对纷繁复杂的交易指标时,这种方式不仅增大了投资者的学习成本,而且还增大了他们的投资难度。随着近年来数据挖掘技术的逐渐成熟,越来越多的学者将数据挖掘技术运用到股市的研究分析中,逐步成为证券、金融行业不可或缺的重要组成部分。在互联网信息高速发展的环境下,博客、论坛、微博、各大新闻客户端充斥着整个互联网空间。互联网平台已经演化成社交媒体的主要载体,成为公众发表观点、获取信息的重要平台。股票投资者通过网络媒介相互交流讨论,从中获取与投资相关的信息。呈几何级数增长的网络舆情信息的影响力急剧扩大,已成为影响人们行为、态度和情绪的主要因素之一。在股票投资领域,越来越多的投资者通过将自己的投资见解传递到网络空间的形式参与到网络舆情信息的表达中。网络舆情作为投资者情绪的反应形式影响投资者对股票的投资行为,同时股票价格的波动又将反作用于网络舆情影响投资者的情绪。因此,本文基于网络舆情对股票信息进行分析,将舆情指数作为投资者网络舆情的量化指标,股价变化率作为衡量股票变化情况的指标,建立与股票信息相关的预测模型,实现对股票价格变化率的预测。围绕对股票价格变化率的预测本文主要进行以下两个方面的研究:(1)在网络舆情信息分析方面。通过python语言编写网络爬虫程序实现对“股吧”中股评文本的爬取,将投资者股评文本作为投资者网络舆情信息的研究对象,利用数据挖掘中的方法对股评文本进行处理,将非结构化的文本数据量化成结构化的数据。为解决因数据质量不高给机器学习过程带来的高维度、低效率的问题,本文首先采用LDA主题提取模型对每日股评文本进行主题抽取,将每日的股评文本以主题的形式呈现;然后通过机器学习算法对每日抽取出的股评文本主题进行情感值分类;最后在计算每条主题的特征词项权重和的基础上,利用每条主题对应的情感值来构建投资者“舆情指数”,用来表示投资者舆情量化后的指标。(2)在建模分析方面。对舆情指数和股价变化率进行相关性分析,提出了一种基于网络舆情的股价变化率预测模型。本文分别基于舆情指数和股票传统技术指标建立POI-Model模型,基于股票传统技术指标建立TI-Model模型,对康达尔(000048.SZ)股票进行实证分析。从股价变化率的预测结果表明:POI-Model模型预测的股价变化趋势准确率为97.56%,股价变化率的误差区间为[-0.07653,0.03153];TI-Model模型预测的股价变化趋势准确率为59.76%,股价变化率的误差区间为[-0.11772,0.12496]。本文在分析网络舆情信息与预测建模的过程中将网络舆情指标作为变量引入到对股价变化率的预测模型中,通过与股票传统技术指标建立的模型进行对比分析可以发现,POI-Model模型的预测效果明显优于TI-Model,提高了股价变化率预测的准确率。实验仿真对比结果可以看出本文构建的舆情指数对于股价变化率的预测具有实际的指导意义。