论文部分内容阅读
时下建立在数理模型基础上的量化投资技术得到了广泛的应用,并给投资者带来了巨大的回报。当今人工智能和机器学习技术方兴未艾,在影像识别、搜索推荐等众多领域已取得傲人成就;相比时序分析,机器学习模型可以快速处理、分析海量数据,并往往具有较好的泛化能力。在本文中,尝试将相关机器学习算法应用于金融数据挖掘中,基于新近提出的极度梯度提升树XGBoost算法、以及主流的机器学习算法,提出了一套数据挖掘方法,对股票收益率的变化方向进行预测和分析。首先,考虑股市往往是不平稳的、低信噪比的复杂系统,通过小波分解以及阈值去噪对于数据的噪声进行过滤。通过小波的多尺度分析,将股价数据分解成不同频率的子序列,并对高频部分的数据降噪,以进一步提取数据中的有效信息。其次,引入多种机器学习模型,将股票收益率的变化方向转化为模式识别中的分类问题进行研究。极度梯度提升树XGBoost是一种新近提出的高效机器学习算法,本文基于该算法构建了一套量化研究模型,同时构建了包括随机森林、支持向量机SVM等多种前沿机器学习方法在内的模型进行对比研究。以沪深300中300支成分股2012-2017年的日频数据为样本,综合考虑了技术指标、基本面指标和舆情指标,并通过Boruta算法验证了所选指标的有效性。通过对去噪后的数据建模研究,发现XGBoost算法的准确率最高,三年的准确率近54.7%,且运行速度有大幅提升,在依靠概率取胜的量化投资中具有重要意义。进一步,根据模型预测的信号进行了回测交易,各算法构建的策略均可产生超额收益;同时基于XGBoost模型的输出构建了一个新的因子,设计了一种分层回测检验方法,发现各层策略之间具有显著差异,进一步验证了算法具有一定的识别能力。最后,机器学习存在黑箱特征,而已有研究中较少有对模型逻辑的研究和阐述,本文进一步尝试对模型的机理和选股逻辑进行了分析:定义了一种特征权重的度量方法,对XGBoost中各因子的权重进行了度量,研究发现能量潮、市盈率等指标相对重要;通过偏相依关系的计算,对于各指标与收益率的方向关系进行衡量,发现模型中市盈率、市净率整体与收益率变化方向呈现负向关系,ROE、周流入额等呈现正向关系。通过以上分析,一定程度上可以弥补机器学习中一直存在的“黑箱性”困扰,使得模型选股的策略逻辑更为清晰。