论文部分内容阅读
我国证券市场发展历史短,与发达国家相比证券市场发展不完善不成熟,一个突出的特点就是由于中小投资者占多数,会产生大量的非理性投资。第二个突出特点就是在证券市场的运行中,政府干预的现象非常明显,具体表现在官方媒体会进行宏观的舆论引导,进而对股票市场产生巨大影响,这也就使得普通投资者和专业投资者甚至国家队的信息不对称现象大量发生,进而使得普通投资者由于对官方媒体信息的理解差异,无法做出缜密、理性的资产配置行为,产生更多的非理性投资。但量化投资的出现,为解决这类问题提供了很好的工具。本文通过实践证明沪深300股指期货价格在短期内的变化是具有一定的可预测性的,相信未来对于LSTM神经网络的扩展与改进将会层出不穷。由于大部分投资者无法直观迅速地感受到证券市场的运行状况,各类媒体就成为中小投资者获取信息的重要渠道。我们可以发现,“媒体-投资者-资产价格”是媒体影响资产价格的传递机制。媒体通过影响投资者的情绪,进而使其产生各种非理性行为并最终影响资产价格。在媒体对资产价格的影响效应研究中,通常的做法是将媒体的内容抽象成一个简单的因子,例如通过线性回归模型把媒体报道某一家上市公司的数量作为解释变量进行媒体关注度的分析。然而,随着机器学习浪潮的来临,仅仅将媒体看作单一因子不足以研究媒体对资产价格的影响,理由有两点:第一,媒体包含着极其丰富的内容,构建单一因子的方式使媒体内容无法完全传递出来;第二,资产定价理论中简单的线性回归模型无法刻画多维度媒体信息与资产价格的非线性关系。基于此,本文实现了两点基于方法学的突破:首先,提出了宏观市场评论因子,将宏观市场评论内容通过爬虫方式转化为多维向量,通过建立宏观市场评论关键词词典的方式,保留媒体内容中丰富的信息,并以此构建了宏观市场评论因子;其次,提出了结合了宏观市场评论因子的LSTM模型,用于捕捉官方媒体评论与沪深300股指期货的金融时间序列之间的复杂关系,并通过宏观市场评论因子对资产价格进行预测。基于金融时间序列影响因素的模糊性和影响机制的复杂多变性,投资者难以真正实现对股价的精确预测,但LSTM神经网络的选择性记忆性以及模型中神经元内部影响的特性非常适用于类随机非平稳的金融时间序列。因此,本文主要研究BP神经网络以及LSTM神经网络技术在金融时间序列预测中的应用,基于我国证券市场的宏观评论数据海量、复杂、发生时间点不明确等特点,提出了官方媒体评论的向量化方法,解决人工分析数据步骤繁琐、分析结果基于主观、分析过程不定量不精准的问题。另外,还通过引入宏观市场评论因子这一新的变量构建一种基于多时间尺度LSTM神经网络的量化投资策略,并尝试为该新型神经网络结构应用于股指期货价格的预测提供一定的理论价值和实践价值。结果表明,该模型在具有宏观市场评论因子等变量的沪深300指数预测中具有广阔的应用前景。本文得出的结论主要有以下四点:(1)神经网络在分析预测作用机理复杂、序列非线性显著的金融资产价格中具有很大优势,弱有效的中国市场能被神经网络很好的预测。(2)针对传统金融时间序列模型的问题,提出LSTM的金融时间序列预测模型,和传统的BP神经网络方法进行对比,该预测模型有着明显的优势。(3)本文所用到的LSTM的金融时间序列预测模型,使用量价数据和新闻媒体信息预测时,比LSTM神经网络模型只使用量价数据的预测效果更好,这说明了引入宏观市场评论等新闻媒体信息对市场预测具有促进作用。(4)在引入神经网络预测模型的基础上,创造性地将其应用于证券市场的模式分类来判断指数是否处于小级别转大级别的“上涨”或“下跌”,从而构建了基于LSTM的多时间尺度耦合策略,回测显示该策略可取得300%以上的年化投资收益,远高于其它传统投资策略。本文的创新点主要有三个方面:(1)基于我国证券市场的宏观评论数据海量、复杂、发生时间点不明确等特点,提出了媒体信息的向量化方法,并以此构建了宏观市场评论因子,解决人工分析数据步骤繁琐、分析结果基于主观、分析过程不定量不精准的问题。(2)研究且实现了基于LSTM神经网络的金融时序预测方法,将沪深300股指的价格数据和宏观市场评论进行采集,然后对股票的影响因素之一——宏观市场评论因子进行建模,并对沪深300股指的涨跌幅进行预测。(3)结合宏观市场评论因子、证券市场数据和金融时序预测模型,给出一种基于多时间尺度下的LSTM神经网络的量化选股模型和策略,总结量化交易实现方法,并通过Auto-Trader量化研究交易软件回测来衡量策略的可行性。不可避免的,由于研究水平有限,本文还存在一些不足之处:(1)在对宏观市场评论数据进行文本向量化时,采取了人工编写词典,并对关键词进行赋值的方式,存在一定的主观性。(2)证券市场存在着海量的信息,有投资者的评论、财经新闻对股票的报道等等,这些信息包含一只股票的诸多方面。而本文采用LSTM的金融时间序列模型,在数据方面只选用了量价数据和宏观市场评论数据,未能涵盖各个方面的信息。