基于梯度决策提升树的选股方法研究

来源 :商讯·公司金融 | 被引量 : 0次 | 上传用户:milo999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  作者简介:卢笛(2000-),女,汉族,吉林长春人,主要研究方向:金融数学。
  摘 要:多因子的选股模型作为投资领域的重要方法,一直以来活跃在主流量化投资领域决策中,而如何根据股票的各个因子来准确地预测个股的月度超额收益,也是多因子模型希望解决的主要问题之一。本文将梯度决策提升树引入量化投资决策,建立了一套基于梯度决策提升树模型的多因子量化投资策略,并利用沪深300成分股进行选股回测,选取模型预测收益率靠前的30只股票进行实证分析。研究表明,梯度决策提升树模型指导下的年华收益率为29.1%,较基准年化收益率有大幅提升,且回撤率更低,验证了该量化选股模型的有效性。
  关键词:多因子选股;梯度决策提升树;量化投资
  近年来,随着机器学习理论的高速发展,其在量化投资领域也得到了广泛应用,美国的许多投资机构早已在投资策略,选股方案指定上引入了多种机器学习模型辅助决策;而国内的股票基金行业也逐渐开始使用机器学习模型来指导选股,相较于传统的多因子策略取得了較高的超额收益。
  本质来说,选股问题可以抽象为一个回归问题,选股即是对股票的多个因子构成的向量进行对收益率的拟合。该分类问题可分解为两个子问题,一方面是因子的选择,即选用股票的哪些方面的特征;另一方面是回归模型的选择,即使用的分类算法。传统的多因子策略模型需要为因子分配合理权重,否则会极大的影响模型效果,通常是超额收益越大,为因子赋予的权重越大,但衡量因子选股效果的指标有很多,如收益相关系数,跑赢指数概率等,难以人为进行均衡来配置。本文拟以梯度决策提升树为核心回归算法,建立一套选股指导系统来探索量化交易市场。
  一个优秀的量化选股策略能够有效克服投资者面临的信息过载,令投资者的投资获得提升。对于买方机构来说,既可以以该策略为指导自营获得收益,也可以基于此发布理财产品,以管理费、赎回费等方式赚取零风险收益;对于卖方机构,则能够将策略打包为股票推荐功能来作为软件卖点,获取更多佣金。
  梯度决策提升树选股模型
  选股问题本质是分类问题,因此选择合适的分类模型能极大影响量化投资策略的效果。在选股领域,常用的决策模型有决策树、神经网络、支持向量机等,其中决策树在处理噪音数据时效果交叉,且存在过拟合的可能;而神经网络模型对个股的走势预测效果欠佳;支持向量机模型虽然优于传统神经网络推断,但支持向量机自身的特性使得其在多分类问题上天生弱于决策树模型,因而还存在一定提升空间。基于以上模型的特点,本文选择梯度决策提升树作为选股模型。
  梯度决策提升树(Gradient Boosted Decision Tree,GBDT)是由Friedman等[1]在2001年提出的一种经典的机器学习方法,属于boosting系列算法中的一个代表算法,它是一种迭代的决策树算法,所有树的结论累加起来作为最终答案。GBDT设计的目的为了求解损失函数的优化,具体思路为对损失函数求梯度,以负梯度的方向代入模型的当前值,以当前值作为残差值的近似。它采用了加法模型,通过向着减小残差的方向收敛得到将输入数据分类或回归的模型。图 1说明了GBDT的训练过程:
  GBDT的经多次迭代后收敛,每轮训练多个分类器,每个分类器基于上一次迭代得到的残差础上进行训练。作为集成学习方法的一种,GBDT的基分类器属于弱分类器,需要结构简单且满足低方差、高偏差的条件,这与GBDT的损失函数是基于降低偏差有关;通常来说,GBDT通常以CART TREE作为基分类器,且每棵CART TREE的深度相对较低以保证基分类器的复杂度不会过高。最终将每轮训练得到的基分类器加权求和,得到总的分类器。
  GBDT既可以解决分类问题,也可以解决回归问题,对于选股适用于回归模型,数学语言表述如下:
  对训练样本,最大迭代次数T,损失函数为L,其中为股票因子组成的向量,为股票价格。
  1.初始化弱分类器
  a)样本负梯度
  b)利用 拟合一个CART回归树,得到第棵回归树,其对应叶子结点区域为,其中为回归树叶子节点的个数
  股票因子选择
  在确定了核心模型后,还需要确定参与训练和股价预测股票因子,股票因子的选择将和模型一起决定股价预测的效果。目前,多因子的选股模型是国际上主流的量化选股模型,该模型认为股票的未来收益率受公司的财务指标和其他某些行情指标影响,且这种影响在时间上是可重复的,因此通过对历史数据中各种因子的分析,能够发现那些有投资价值的公司,因而适合的股票因子选择也对选股策略的准确性有着很大影响。本文参考了多篇文献[2-4]的分析,从动量因子,交易量因子,估值因子等多个方面初步选取了28个有效因子。
  首先对因子进行归一化处理,这里使用均值方差法将因子值域归一到区间[0,1];另外为了减少噪声,将当月超额收益分为数在20%到80%之间的数据去除。
  对于机器学习来说,虽然更多的特征通常意味着对样本更全面的表示,但使用的特征过多也会带来训练样本数的增加,甚至可能引发维度灾难[5],所以本文对28个因子的特征进行一次主成分分析,并根据分析结果选择了前20维的因子,最终使用的股票因子如表 1所示。
  实验数据选用了2015年1月1日至2020年12月31日期间沪深300成分股全部股票每月最后交易日的股票因子值和月收益率。2015年1月1日至2019年5月31日的数据被作为训练集来训练模型,2019年6月1日到2020年12月31日的数据用于回测部分,经缺失值筛选后,剩余股票数据为11634条。
  我们在计算因子时,需要获得公司的某些财务数据,但在实际的投资过程中,公司财务数据的获取往往并不是及时的,比如在6月底7月初时,第二季度已经结束,但有些公司的二季报仍未公布,这就带来了信息的滞后性,为了使实验结论能够指导实际的投资,我们也需要对训练的数据做相应的滞后处理。从公司财报最晚的公布时间来看,一二三季报的时间分别是当年4月底、8月底、10月底,而年报则是次年的4月底,由此可知我们在11、12月和次年前4个月应使用前一年三季报的数据,而5、6、7、8月则应使用本年度一季报及前一年的年报数据,9、10月份则正常使用三季报即可,如此可以贴合实际的操作。   此外,在我們的已知数据中,混杂有ST股票,ST股票即代指一类包括但不限于财务状况异常的公司的上市股票,它们的单日涨幅跌幅受到限制。这些股票在实证分析时应当被剔除,然而实验数据中只能显示在当前时间点为ST的股票,并不能反映股票的历史状态,所以仅凭数据中标注的ST来判断筛选是不准确的,因此我们选择手动根据财务状况剔除,比如ROE为负的股票。
  对训练数据中的特殊值,同样需要进行处理。例如,计算估值因子时,应剔除负值,因为估值为负数没有比较意义;而实验用的下载数据中,也存在部分指标诸如公司利润表中母公司净利润存在部分季报的缺失,计算时需要考虑将缺失的数据代入一个缺省值。
  训练和验证均在同一实验环境下进行,使用Python sklearn 0.23.1版本实现,通过测试寻找最优损失函数,其余参数保持默认设置。本文在训练集中使用5折交叉验证来验证GBDT模型对股价预测的有效性,采用均方误差MSE和平均绝对误差MAE来验证梯度决策提升树模型的股票预测精度。
  在模型收敛后,交叉验证的股价预测结果如表 2所示。
  显然绝对损失函数的MSE和MAE都小于均方差函数,所以选用绝对损失函数进行股票预测。同时MSE小于0.009,MAE低于0.07,可知GBDT算法可以有效地预测股票股价。
  本文还进行了回测实证,回测采用每月月末交易,每次交易前卖出所有持仓股票,然后根据股票得分买入得分排名前30只的股票,在回测数据集上进行了验证。为了更好地衡量GBDT模型在股票市场的表现,本文还将GBDT模型的实证结果和支持向量机(SVM)[6],多层感知机(MLP)[7]模型进行了比较。表 3展示了三种策略在沪深300股的股票收益指标和风险绩效指标。
  表中展示的三种策略模型,其年化收益率均高于基准年化收益,本文的GBDT模型高于基准收益近2倍;其次,GBDT也有着更高的夏普比率,说明在同样的风险系数下,GBDT模型可以更好地帮投资者作出有效的投资决策;最大回撤上,GBDT只有5.9%,说明模型具有相当的稳定性。
  结语
  本文通过对量化投资和机器学习等相关领域的研究,使用梯度决策提升树模型进行量化选股,并对特征进行了降维处理,消除冗余信息,并将模型与支持向量机和多层感知机进行了比较,以经主成分分析后的股票因子作为输入,使用模型进行股价预测,并通过预测股价进行了投资组合。实证实验表明梯度决策提升树在股票投资的年化收益和风险控制方面较其他模型都有一定优势。
  参考文献
  [1]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001, 29(5):1189-1232.
  [2]谢合亮, 胡迪. 多因子量化模型在投资组合中的应用——基于LASSO与Elastic Net的比较研究[J]. 统计与信息论坛, 2017(10).
  [3]李斌, 林彦, 唐闻轩. ML-TEA:一套基于机器学习和技术分析的量化投资算法[C]// 中国系统工程学会第19届学术年会. 2016.
  [4]陆飞. 中国股市价值投资策略的实证研究[D].北京理工大学,2008.
  [5]Keogh E , Mueen A . Curse of Dimensionality[J]. Ind.eng.chem, 2009, 29(1):48-53.
  [6]Kong F , Song G P . Stock Price Combination Forecast Model Based on Regression Analysis and SVM[J]. Applied Mechanics & Materials, 2010, 39:14-18.
  [7]Turchenko V , Beraldi P , Simone F D , et al. Short-term stock price prediction using MLP in moving simulation mode[C]// IEEE International Conference on Intelligent Data Acquisition & Advanced Computing Systems. IEEE, 2011.
其他文献
作者简介:薛菲(1995-),女,汉族,山东青岛人,主要研究方向:会计理论、管理会计。  摘要:本文以A中型塑料公司为例,梳理了公司预算管理的现状,进一步以战略目标为导向,从制度与组织机构、部门沟通与预算编制、人员素质与参与度、激励机构与向心力四个方面分析了其存在的问题,并基于战略导向提出了优化建议。  关键词:战略导向;全面预算;战略目标  一、引言  随着经济全球化的覆盖,企业间的竞争越来越激
期刊
作者简介:杨战军(1982-),男,汉族,天津人。主要研究方向:管理会计。  摘 要:企业治理的内部财务管理问题主要集中在两个方面:财务风险管理和财务控制决策。为了解决这些问题,管理人员必须根据业务发展的现状,采取积极有效的措施,加强财务控制管理的创新。文章结合实际,从主观管理、体制建设、审计监管和财务预算入手,阐述了企业财务内控执行所存在的现实困境,并提出了相应的优化对策,希望对于财务内控不健全
期刊
作者简介:张锁林(1983— ),女,汉族,云南昆明人,硕士研究生,会计师。主要研究方向:财务管理。  摘 要:行政事业单位在我国经济建设和发展中具有重要的地位,肩负着不容忽视的历史责任和使命,在经济飞速发展的时代,存在着很多管理风险,随着新技术不断应用,导致行政事业单位的财务管理工作也面临着一些风险,所以要求相关部门和工作人员需要加强财务内控管理,有效的识别和规避财务管理中的风险,并采取有效的措
期刊
作者简介:辛桐(1977— ),男,汉族,天津人,中级会计师。主要研究方向:中小学内部控制制度、财务核算与管理。  摘 要:在新时期发展大环境下,中学需在财务管理中切实与全面的掌握新会计准则,从而给校财务管理工作带来合理的参考借鉴作用。在此期间,务必重视其中要点,按照科学分析方法增强中学财务管理质量和工作成效。文章将根据实际的中学财务管理案例,深入探讨与分析新会计准则内容。在此基础上,钻研中学财务
期刊
作者简介:庞中燕(1984-),女,汉族,广西南宁人。主要研究方向:区域经济发展、英语教育。  基金项目:  广西国际商务职业技术学院2020年度广西高校中青年教师科研基础能力提升项目“外商直接投資对广西经济发展质量的影响研究”(项目编号:2020KY38003)  摘 要:2020年,受新型冠状肺炎疫情的影响,全球产业链复苏面临严峻挑战。在此局面下,充分保障外资产业链和供应链平稳运转,是保持经济
期刊
作者简介:姜云轩(1997-),男,汉族,山东烟台人,主要研究方向:企业财务管理。  摘要:文章以我国A股上市公司2014-2019年财务数据为研究样本,实证分析了员工持股计划的实施与企业创新之间的关系,并从股权结构的角度对员工持股计划与企业创新的关系进行了更深层次的探究。研究结果表明,上市公司实施员工持股计划有利于促进企业创新,促进效果在非国有企业更为显著,非国有企业股权集中度的提高会抑制实施员
期刊
作者简介:陈阳(1980— ),男,回族,河南南阳人。主要研究方向:企业财务管理   摘 要:随着我国社会经济不断发展,中央企业在深化改革、市场竞争中,深刻体会到财务管理在整个企业管理体系中的作用。面对新形势、新任务、新要求,防范日常经营风险,防止国有资产流失,需进一步加强企业内部监督。随着我国社会经济不断发展进步,中央企业在深化改革、市场竞争中,深刻体会到财务管理在整个企业管理体系中的作用非常
期刊
作者简介:王宏伟(1966-),女,汉族,内蒙古巴彦淖尔人。主要研究方向为:审计学方向、区域经济方向。  基金项目:学分制下财务核算、收费问题研究(项目编号:HTXYJX18012)。  摘要:随着我国高等教育体制改革的深入,高等学分制教学模式的推行,使得教育管理的模式有了重大的变化,并且已在全國全面推行。在新的时代背景之下,假如只是依据传统的收费标准来进行学费的收取,就会与高等院校教育当中的成本
期刊
作者简介:柳刚思(1972-),男,汉族,山东青岛人,主要研究方向:财务管理。  摘要:现代医学技术在不断的发展,医疗水平为人们的健康保驾护航,医疗设备也在更新换代,为人们的医疗提供最先进的医疗设备。不过现在很多公立医院都选择在医疗设备上进行融资租赁,购买医疗设备的成本实在太高,所以现在的公立医院医疗设备的租借租赁已经成为常态。但是在医疗设备的出租、承租医院与政府还有患者,多方面也会出现相应的问题
期刊
作者简介:作者简介:吴沛东(2000—),男,回族,吉林长春人,主要研究方向:数字货币、云银行等  摘要:商业银行的经营必须要做出风险管理,用科技来推动商业银行对风险管理水平的提升,纵然是一种有效的方法,但也需要联合应用云计算、物联网及区块链等新一代技术,要全新启动金融科技的时代,在深化互联网金融板块的基础上,做好收购、投资等金融布局,塑造商业银行强大的核心竞争力,在金融科技的支持下提出新的要求,
期刊