论文部分内容阅读
股票市场在一个国家的国民经济中扮演着重要的角色,人们往往可以从一个国家的股票市场中粗略地看出它的的经济发展状况,对于股票市场波动的研究变得愈加具有现实意义。它不仅有助于了解国家的宏观经济情况,还可以帮助监管部门针对性地出台相关规范。随着上交所与深交所的相继成立,我国股票市场从无到有,逐渐发展为一套较为成熟的体系,这对于市场上金融资源的合理调配具有重要作用。有效市场理论认为,市场上的任何信息都会对股价的波动产生影响,所以在股票预测时需要尽可能多地融合不同来源的信息。一般来说,市场上的信息主要可以分为两类,股票的基本面信息,即股票的历史数据,以及媒体信息,包含新闻事件与股民评论。它们的信息来源不同,并且数据结构常常也是不同的。股票的基本面信息是结构化的数字形式,而媒体信息通常是非结构化的文本数据。往常的研究通常基于基本面信息与媒体信息中的一种来分析其与股市波动之间的关系,或者同时利用这两种信息,但是是以向量形式保存,忽略了不同来源数据之间的交互关系。如何有效的融合多源异构数据仍是一个难点。本文提出了一种基于多源异构数据的股市分析方法。首先利用二阶张量来存储股票的基本面信息以及媒体信息,与向量存储相比张量可以更好的捕捉两者之间的交互。然后利用一种事件驱动的卷积门限线性单元(Conv GRU),即在传统的卷积门限线性单元中加入了一个由新闻事件决定的事件驱动因子,从而增强新闻事件的影响力。媒体信息主要为新闻及评论数据,由于它们都是文本数据,无法直接处理,因此本文首先利用情感词典的方法来分析其情感极性,使用SO-PMI算法来扩充知网提出的“情感分析用词语集”,使得该词典更加契合网络文本的处理需求。此外,本文还利用CNN-LSTM混合模型,即在LSTM模型前使用卷积层与池化层提取特征,延展为向量之后再输入LSTM模型中,对新闻及评论数据进行情感分类,最后比较两者的分类效果。在实证分析部分,本文分别在上证指数和个股两个水平上进行实验。为了便于比较,采用控制变量的方法来测试张量存储方式与事件驱动机制的有效性。最后发现在股票预测领域,基于张量的改进GRU模型优于基于向量的模型,事件驱动机制也对股票涨跌的预测有积极作用。