论文部分内容阅读
近年来,计算机机器学习在许多领域得到了应用,越来越多的研究人员尝试将各类机器学习算法应用于股价预测,以期待得到好的效果。Stacking算法在多届Kaggle大赛的浮动价格预测中都有着不俗表现,通过异质学习器的组合,极大的增强了模型泛化能力,在多个学习器输出后递进学习实现算法集成,往往能够取得优于单一模型的预测结果。然而,stacking第一层测试集输出融合仅仅采用算术平均,制约了stacking算法效能的充分发挥。对样本数据集的特征提取又存在单一筛选方法筛选效果不理想的问题。因此,如何有效的选择特征并合理优化stacking元学习器输入值,成为进一步提升预测效果需要解决的问题。针对特征选择中单一选择方法效果不理想的问题,本文通过构建集成特征打分器,综合评价皮尔森相关系数、秩相关系数和Xgboost反向验证权重因子,提取出高相关特征数据集,删除次要特征。择优选取,找出Hunghes现象中特征属性数量的最优峰值,实现噪声规避与有利特征损失之间的平衡。针对传统stacking算法在股价预测领域因简单算数平均而忽略时间连贯性与基学习器效果差异的问题,本文改进了stacking算法,对K折交叉验证中不同样本组合训练出的学习器进行精度评价,在stacking第一层测试集预测输出上做精度赋权,又根据训练集不同K折样本距离测试集的时间距离特性进行时间赋权建模,不断循环验证测试效果并进行权值间距缩放,实现权值动态寻优。在精度赋权与时间赋权的计算后,完成stacking第二层的测试集的输入构建,实现了改进的stacking集成算法。本文以航天科工集团旗下三家子公司的股票数据为实验样本,首先通过回归预测论证集成特征打分器的特征筛选方法是否有效,并找出Hunghes现象峰值所对应的特征数量。然后应用本文所提出的集成了岭回归、随机森林和Xgboost的改进Stacking算法,对三支股票收盘价进行回归预测。实验结果表明新的集成算法优于任意一种单一算法,较传统stacking集成存在“分”位预测上的优势,对短期股价预测具有一定程度上的参考价值。