沪深300成分股的机器学习预测模型研究——从非线性可预测性与量化策略的视角分析

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:lsgaoyan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了文章的研究背景与意义、研究目标与研究内容、研究思路和研究方法,以及论文的创新与不足。接着介绍了国内外关于量化投资和可解释性的相关内容。紧接着介绍本文所使用的机器学习算法原理。在实证部分,本文基于Gu等(2020)的研究,进一步探究机器学习方法在中国股市中的表现,并且在其基础之上,加入了新兴的LSTM模型。在预测变量的选取上,Gu等(2020)采用了个股层面、行业层面以及宏观层面的数据作为预测变量对美国股市进行预测;而本文在综合考虑数据的更新频率和数据获取的难易程度后,选择股票的历史交易数据来预测沪深300指数成分股的收益率。在预测效果上,Gu等(2020)的研究中对美国股市预测效果最好的模型为NN3模型,其样本外~2为0.40%;而本文仅采用了历史交易数据进行预测,却达到了更好的预测效果,本文的LSTM模型和RF模型的样本外~2分别为0.74%和0.48%,均高于Gu等(2020)最好模型的样本外~2。这说明机器学习方法在中国股市的预测问题上具有非常广阔的发展前景。在线性与非线性模型的整体表现上,Gu等(2020)的研究结果和本文的研究结果是一致的,都表明非线性机器学习模型的表现比线性模型更好。接着,本文探讨了LSTM模型的预测准确率和在熊牛市中的适用性,研究结果表明,LSTM模型的上涨预测准确率达到56.75%,而Fischer和Krauss(2018)对标普500成分股预测的准确率最高为54.3%,本文具有更高的预测准确率,预测效果更好。在对熊牛市适用性的研究中发现,LSTM模型在牛市中的上涨预测准确率达到57.29%,在熊市中的上涨预测准确率为50.05%,显然牛市中的上涨预测准确率更高,这也说明了LSTM模型能够更好地获取市场中的动量效应信息。进一步地,本文基于样本外~2最高的LSTM模型的预测结果对沪深300指数成分股进行量化交易分析。在不考虑交易费用时,2015-2018年期间该交易策略四年的累计收益率达到148%;进一步考虑交易费用,发现该策略仍能获得显著的超额收益。同时,仅通过历史交易数据就能够获得超额收益,也表明我国的股票市场尚未达到弱式有效。然而在现实中,仅仅知道机器学习模型的预测效果好是不够的,在实际应用的过程中,对模型可解释性的要求非常高。当一位基金经理根据机器学习的预测结果向他的客户推荐一支股票的时候,他需要解释为什么推荐这支股票。因此,为了增强复杂机器学习模型的可解释性,本文进一步对预测股票收益的重要变量、重要变量与股票收益预测结果的关系以及复杂机器学习模型的变量之间是否存在交互效应进行分析。本文的研究结果表明,具有预测能力的LSTM和RF模型中,前一个交易日的收益率(close_t-1)对未来一天的收益率具有明显最重要的影响。此外,我们还发现成交额信息具有次重要影响。非线性模型更好预测力的可能来源之一是准确地抓住了重要的预测变量,从中提取到了预测沪深300指数成分股收益的有用信息。进一步,在研究重要变量和预测结果关系时发现,当只考虑close_t-1这一个预测变量时,其在LSTM和线性模型中与未来收益率均表现出较为明显的线性函数关系,这也体现出了动量效应;而amt_t-1、amt_t-2和amt_t-3在LSTM模型中均表现出对未来收益率的非线性影响,这种非线性关系可能是提升LSTM模型预测力的原因之一。通过对交互效应的研究发现,在LSTM模型中,变量之间存在交互效应。由于线性模型的变量之间不存在交互效应,这种交互效应也可能是提升LSTM模型预测能力的原因之一。结合上述对复杂机器学习模型可解释性的分析,本文进一步探讨在沪深300指数成分股收益的预测问题上,LSTM模型比线性模型预测效果更好的原因。第一个可能的原因是,金融市场是十分复杂的,预测变量与预测结果之间往往不是单纯的线性关系,线性模型在这种复杂的市场中天然处于劣势地位,而更为复杂的非线性模型在这种情况下往往能够自适应地学习自变量和因变量之间的关系。第二个可能的原因是,LSTM模型准确地把握住了重要的预测变量,从中提取到了预测沪深300成分股收益的有用信息。第三个可能的原因是,LSTM模型敏锐地捕获到了沪深300指数成分股市场中的动量效应。最后,对本文的内容进行总结,并对未来研究工作进行展望。
其他文献
目前全国残障人士总数约为8502万人,大概占全国总人数的6%,共涉及7000多万个家庭,其中约有858万有劳动能力且达到就业年龄的残障人士没有实现就业。截止至2017年底,在全国建立档案的贫困人口中,残障人士有281万,约占10%,并且贫困残障人士占贫困人口的比例还呈逐年上升之势。残障人士所面临的就业问题如政策层面对残障人士就业的保障性不高、政策落实效果存在偏差,非正式社会支持的参与主体缺失,力度
学位
未成年人由于身心发展尚未健全,加之社会问题的复杂化趋势、侵害未成年人权益案件频发,需要社会各界予以特殊保护。我国《民法典》和《未保法》的出台和修订,都标志着我国未成年人保护工作(以下简称未保工作)正开启新的发展阶段;而社工作为专业助人的社会力量,参与未保工作势在必行。近年来,广州市推广实施“青年地带”社工项目,对接服务受侵害及易受侵害的重点青少年,参与未保工作的各个环节中。基于角色理论和系统视角,
学位
随着我国人口老龄化进程的不断加快,老年的健康问题逐渐成为社会关注的焦点。慢性病作为威胁老年人健康最严重的一类疾病,也逐渐引起人们的重视。《中国居民营养与慢性病状况报告(2020年)》显示,2019年,我国因慢性病导致的死亡占总死亡的88.5%,因病致死率较高。与此同时,慢性病具有难发现、病程长、发展缓慢的特点,因此控制慢性病恶化的过程会给患者个人及其家庭乃至社会造成沉重的负担。随着社会工作在老年领
学位
自从Miller&Modigliani(1961)提出MM股利无关论之后,股利政策就成为公司金融领域的热点问题。为破解Black(1976)提出的“股利之谜”,学者们提出了信号传递理论、股利代理理论、生命周期理论等诸多股利理论,但没有一种理论能完全解释现实中的现金股利发放。之后的研究大多以这些理论为基础,研究公司现金股利支付的影响因素。控股股东行为也是影响现金股利的重要因素之一。本文以股权质押为切
学位
随着我国金融市场的逐步发展和相关体制的不断健全,部分投资者对稳健型投资产品的需求日益增长。因此,保本型的投资策略诸如著名的投资组合保险策略拥有了更广泛的应用空间。以固定比例投资组合保险(CPPI)策略为代表的投资组合保险策略旨在以牺牲一部分上涨潜力为代价,将投资组合面临的风险敞口控制在投资者预设的可承受范围内,同时也保证组合在市场上涨行情中适当享受收益。CPPI策略的核心问题在于参数风险乘数的确定
学位
一个国家的金融结构可以笼统地分为两类:“银行主导型”和“市场主导型”。一般认为,“市场主导型”金融结构下发生金融危机的概率更低。20世纪90年代以前英美等主要经济体的金融结构以“银行主导型”为主,期间银行危机频发;此后一些国家金融结构开始转向“市场主导型”,但风险并没有随着这一转向而降低,2008年爆发了影响全球的金融危机,这使得各国不得不重新审视金融结构与系统性风险之间的关系。一直以来我国金融结
学位
党的十九届四中全会提出“建立党委领导、政府负责、民主协商、社会协同、公众参与、法制保障、科技支撑的社会治理体系”。为在社会组织中加强党的领导,广州市于2018年推行“113X”模式,即“1”个核心项目——强化党建引领社会工作服务。社区是国家治理与基层服务的重要场域,社区的有效治理是党建引领社会工作的服务目标。本研究将基于Y社区治理实践,探究党建引领社会工作参与社区治理何以实现、如何实现。党建引领是
学位
初中新生面对新的环境,会有新鲜感,也会感到迷茫,需要有一个适应的过程,在这个过程中有的新生可以很好的适应,有的则会出现适应性问题。经过前期的调查研究,发现初中新生会面临一些来自家庭、学校和社会的压力,且他们利用社会支持解决问题的主动性较低。因此,初中新生应对困难的能力对他们的心理健康发展有很大的影响,帮助初中新生提升抗逆力也显得十分重要。本文主要从三个方面来开展研究:资料收集,开展小组活动,总结提
学位
“互联网+社会工作”的行动策略及2020年的“新冠肺炎”疫情对网络社会工作实务发展起到了催化作用。本文试图通过研究以了解网络社会工作的服务内容、存在的特点和局限等现状情况。通过文献的梳理可以发现目前学界业界对于网络社会工作的概念尚不清晰,因此本文对学者已有的概念进行总结,重新界定了网络社会工作的定义,并在此基础上将其划分成工具性网络社会工作和场域性网络社会工作两大类型。网络社会工作两大类型的划分同
学位
高管纵向兼任作为股东单位增强对上市公司控制权的方式之一,在我国上市公司中普遍存在。高管纵向兼任能够有效降低所有者与管理者之间的信息不对称程度,缓解第一类委托代理问题,帮助管理者进行更好的管理决策,提升管理效率。与此同时,上市公司高管纵向兼任也可以作为上市公司大股东攫取私利的通道。学术界对高管纵向兼任的研究比较常见,但是对于其作用效果并不能得到一致的结论。且目前关于高管纵向兼任的研究大多是站在股权人
学位