论文部分内容阅读
新型网络时代开启的标志就是各种社会化网络(微博、博客、微信、论坛等)的出现。社会化网络在人们的生活中扮演着越来越重要的角色,它让人们在信息传递的过程中角色由被动接收方变为主动创造者,这一改变极大的调动了互联网用户的积极性,每天都有大量的用户原创数据(User Generated Content)产生。这些数据凝聚了大众对于社会问题的观点、看法,例如财经媒体、金融从业者在社交媒体上实时发布股票市场信息,投资者实时获取这些信息,表达自己对于市场和个股的看法,并与其他社会化网络的参与者对某一市场问题进行讨论。这些UGC数据代表了一定时期内整个市场对于当期和未来一段时间内走向的判断,对于股票市场走势的预测具有重要意义,越来越多的学者参与到对于股票市场UGC数据进行挖掘的研究当中。现有的研究认为分析社会化网络的信息活动强度和情感倾向有利于完善现有的股市预测技术,而国内外现有研究多以论坛等传统社会化媒体作为数据来源对象,对于微博这种新兴的社会化媒体的研究有限。由于新浪微博是国内市场占有率最高的微博平台,固本文以新浪微博作为获取数据的来源。本研究共获取2012年——2014年期间320万条股票市场相关微博,通过使用文本挖掘与情感分析等分析技术对获取的微博文本数据进行量化,构建出由投资者情感倾向、投资者未来预期与投资者关注度三大类指标组成的投资者情绪指标体系,并结合上证指数的收盘点数、收益率、波动率、成交量等市场表现数据,探索两者之间的相关性,通过该部分的分析证明了基于新浪微博文本分析所得到的投资者情绪各指标与股票市场表现之间存在相互影响。在相关性研究的基础上,尝试建立加入投资者情绪变量的上证指数的预测模型,并与传统预测模型进行了比较。主要研究成果如下:(1)投资情情绪。对通常的投资者分析而言,都带有一定程度的间接性,但本研究采用的是基于微博内容的投资者情绪分析,这些微博往往是投资者或者市场的关注者真实的情绪表达,因此具有直接性和更强的真实性,相对间接投资者情绪价值更大。(2)构建投资者代理情绪指标体系。本研究在已有的研究成果的基础上,构建了投资者代理情绪的指标体系。该体系为后续的投资者情绪研究奠定了基础。(3)实证设计和研究。首先从微博获取关键词信息如股票市场、情感维度等几个方面的关键词的提取,随后对其进行指标的量化。通过实证研究,发现投资者情感倾向和股票市场指标、投资者未来预期和股票市场指标、投资者关注度和股票市场指标之间都存在着显著的相关关系,加入投资者情绪指标的模型预测精度要高于传统模型。