论文部分内容阅读
随着互联网时代的到来,越来越多的人会通过互联网来关注财经新闻,毫无疑问,大部分股民也会通过财经新闻来关注股价的走势情况。那么互联网财经新闻与股价走势到底有没有关系,哪些类别的词语与股价走势有关系,这都是股民所关注的事情,也是本文研究的重点。本文基于文本处理技术和回归分析技术,以新浪财经网站为例,通过网络爬虫获取到2015年1月1日到2016年9月30日新浪财经网站上所有关于融资融券类股票的新闻文本,利用文本分词及量化技术,对新闻文本进行量化处理,然后将量化后的数据进行分类处理,总共分为6个类别的词语。最后利用命名实体的方法将量化后的新闻文本数据与在Wind数据库中获取到的股票价格分钟数据进行匹配,得到用于回归分析的数据。本文以6个类别词语的权重值为自变量,以股票价格波动幅度和涨跌方向为因变量,利用多元线性回归模型探讨在总样本和沪深两市的两分样本下新闻文本中不同类别的词语与股票价格波动关系的差异;同时由于直接对股票价格涨跌幅度进行预测的效果非常差,因此本文尝试运用Logistic回归对股票价格涨跌方向进行预测。通过实证分析,得到以下结论:从总体来看,财经新闻文本与股票价格波动存在一定关系,各类别的词语与股票价格波动的关系存在一定差异。消极性的词语与股票价格波动有负向关系,积极性的词语与股票价格波动有正向关系。专有名词(公司经营状况类和交易类)与股票价格波动关系的密切程度大于情感词与股票价格波动关系的密切程度。在总样本和沪市样本下,6个类别的词语会随着时间的推移,与股票价格波动关系的密切程度会有细微变化。总体上来说,随着时间的推移,股票价格波动与经营状况类词语关系的密切程度基本呈下降趋势,与交易类词语呈上升趋势,而对情感类词语而言,它们之间关系的密切程度基本无变化。采用Logistic回归以财经新闻中的6个类别的词语为自变量对股票价格涨跌进行了预测,并对预测效果及原因进行了分析,为投资者及相关研究人员提供了一定的参考。对沪市股票价格涨跌的预测准确率高于对深市股票价格涨跌的预测准确率,新闻文本对融资融券类股票价格涨跌的最佳预测时间在10分钟左右。