论文部分内容阅读
股市一直是一个热门的研究领域,传统上的研究主要是基于股市的历史价格数据,从时间序列的角度去探究股市变动的特征。很少有研究从信息、消息的角度,去发掘影响股市的一些因素,进而探究信息与股市之间关联性。随着互联网的快速发展,我们可以在短时间内从互联网上获取大量的信息,这使得通过互联网信息来研究股市的方法越来越成为可能。本文从财经新闻的角度出发,去探究互联网财经新闻与股市之间的关联性,测度互联网财经新闻对股市的影响效应,希望为股市的研究提出一个新的思路。在理论及方法研究部分,本文首先从信息视角和行为视角阐述了互联网财经新闻对股市产生影响的理论基础,然后对影响效应测度的方法展开研究:新闻事件对个股影响的测度方法—事件研究法,财经新闻文本的量化方法——文本挖掘,财经新闻主题信息的提取方法——LDA概率主题模型,财经新闻情感信息的提取方法——情感倾向分析。最后介绍了开展研究所使用的一些技术方法:新闻文本的获取技术——网络爬虫,个股新闻与股票名称匹配技术一一命名实体识别。在实证分析部分,首先,根据新闻事件发布之后相关个股可能出现的结果,对财经新闻事件对个股的影响机制进行了阐述,然后采用事件研究法去测度个股新闻对个股收益率的影响,分析新闻事件发布前后相应上市公司的股票是否存在异常收益率,分析结果表明:第一,新闻事件发布之后相应股票确实产生了异常收益率,说明个股新闻对个股的股价确实有显著的影响;第二,在新闻事件发布之前,相应公司的股价便产生了异常的波动,说明我国股市的一些信息发布机制还需要进一步规范;第三,无论是从平均异常收益率还是累计异常收益率来看,个股股价对利空事件的反应强度都要大于利好事件。其次,在板块指数层面,本文分析了互联网财经新闻对板块指数的影响。在该部分,采用LDA主题模型从财经新闻中提取主题信息,然后再基于专业的财经情感词库,构建了主题一情感倾向指数,通过研究主题情感倾向指数与相应板块指数收益率之间的关系,来探究各个主题的财经新闻对相应板块指数的影响。根据格兰杰因果分析的结果发现,金融主题情感倾向指数与金融板块指数收益率之间互为因果关系,即两者之间相互影响。为了进一步探究两者之间的关系,本文采用了向量自回归对两者之间的动态关系进行分析,通过回归方程的结果以及脉冲响应、方差分解的结果发现,金融主题的情感倾向指数会对金融板块指数的收益率产生一个正向的影响,这种影响通常会持续三到四天。本文的创新点在于,采用文本挖掘的技术从互联网财经新闻的角度去研究股市.分别从个股以及板块指数两个层次,来测度财经新闻对股市的影响;在文本情感分析的基础上,引入主题模型,把情感分析从一个文本一个情感倾向的结果形式转变成了一个文本多个主题-情感倾向的结果形式,并在此基础上提出了一种文档集情感倾向指数的构建方法,为新闻文本的情感分析提供了一种新的方法。