基于特征选择与改进stacking算法的股价预测研究

来源 :南华大学 | 被引量 : 15次 | 上传用户:yulequ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机机器学习在许多领域得到了应用,越来越多的研究人员尝试将各类机器学习算法应用于股价预测,以期待得到好的效果。Stacking算法在多届Kaggle大赛的浮动价格预测中都有着不俗表现,通过异质学习器的组合,极大的增强了模型泛化能力,在多个学习器输出后递进学习实现算法集成,往往能够取得优于单一模型的预测结果。然而,stacking第一层测试集输出融合仅仅采用算术平均,制约了stacking算法效能的充分发挥。对样本数据集的特征提取又存在单一筛选方法筛选效果不理想的问题。因此,如何有效的选择特征并合理优化stacking元学习器输入值,成为进一步提升预测效果需要解决的问题。针对特征选择中单一选择方法效果不理想的问题,本文通过构建集成特征打分器,综合评价皮尔森相关系数、秩相关系数和Xgboost反向验证权重因子,提取出高相关特征数据集,删除次要特征。择优选取,找出Hunghes现象中特征属性数量的最优峰值,实现噪声规避与有利特征损失之间的平衡。针对传统stacking算法在股价预测领域因简单算数平均而忽略时间连贯性与基学习器效果差异的问题,本文改进了stacking算法,对K折交叉验证中不同样本组合训练出的学习器进行精度评价,在stacking第一层测试集预测输出上做精度赋权,又根据训练集不同K折样本距离测试集的时间距离特性进行时间赋权建模,不断循环验证测试效果并进行权值间距缩放,实现权值动态寻优。在精度赋权与时间赋权的计算后,完成stacking第二层的测试集的输入构建,实现了改进的stacking集成算法。本文以航天科工集团旗下三家子公司的股票数据为实验样本,首先通过回归预测论证集成特征打分器的特征筛选方法是否有效,并找出Hunghes现象峰值所对应的特征数量。然后应用本文所提出的集成了岭回归、随机森林和Xgboost的改进Stacking算法,对三支股票收盘价进行回归预测。实验结果表明新的集成算法优于任意一种单一算法,较传统stacking集成存在“分”位预测上的优势,对短期股价预测具有一定程度上的参考价值。
其他文献
杨树幼林抚育劳动量大,在营林成本中占较大的比重。为降低管护除草费用,促进林木生长,我县结合退耕还林工程建设进行了除草剂在杨树幼林抚育中的应用试验。
宿根花卉从栽培方式上来说属于露地花卉,宿根花卉地上部分在早霜后逐渐枯死,地下部分进入休眠,翌年春天,天气转暖后重新发芽,继续生长、开花、结实。
构造隆升过程研究对矿产资源勘查及评价具有重要意义,是地质学家长期探索的关键科学问题之一.现有构造隆升过程的研究方法均具有一定的适用性和局限性,正反演方法之间难以建
建筑结构一旦出现结构稳固性不足,就会导致建筑的安全性、稳定性、可靠性等各项性能下降,所以为了避免此类现象,在现代建筑施工当中,应当重视建筑结构检测措施的应用,以此能
切削机理模型是研究岩石钻进切削过程中的切削力以及切削热的基础.在分析岩石切削机理模型的基础上,基于摩尔理论和裂纹扩展理论,分析中硬岩石切削状态,认为在中硬岩石切削过
发现内化教学法是以教师给出的线索加以引导,学生通过利用自身已经掌握的知识,去发现、探究需要学习的目标知识.这种让未知知识转化为已知知识的过程被称作“发现内化”,它加
通过田间肥效对比试验验证助邦牌(氨基酸水溶性肥料)在甜瓜上的效果,为进一步大面积应用提供依据。一、试验材料与方法1.试验地情况在轮台县轮台镇四村农户的地里进行,前在作
一、试验目的明确鸽哈(50%百菌清+甲基硫菌灵)对棉花黄、枯萎病的防治效果和安全性,从而确定其适宜的推荐使用剂量和最佳施用时期,为大面积推广应用提供依据。
本文通过分析金华市农村电子商务物流存在的问题,提出了构建构建农村电子商务物流体系的对策。
内部控制是企业发展的关键环节,同时也是事业单位改革和发展中不可忽略的重要工作。在新的发展形势下,事业单位在改革的过程中应该将内控体系建设纳入其中,从而补齐发展的短