基于特征抽取和分步回归算法的资金流入流出预测模型

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:vikdl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商业公司的金融平台往往拥有千万乃至上亿位服务会员,公司的金融业务场景每天必然会涉及大量的资金流入和流出,面对如此庞大的金融数据,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况显得尤为重要。但金融数据的变动往往受社会,政治,经济,重大事件等多方面因素影响,数据趋势不稳定而且包含多噪声,给资金流量的预测带来了困难。本文以金融平台用户的资金流量预测为研究背景,旨在构建一个准确、有效的资金流入流出的预测模型,以最大程度上贴近资金流量的真实值,便于资金管理。本文的主要研究内容与成果如下:1.本文针对资金流入流出数据集初始特征不明显的特点,利用特征抽取方法挖掘出相关特征,并采取特征选择策略选出最优特征子集。主要是从时间、用户、利率三个不同角度构造与目标值相关的多个特征,再利用皮埃尔相关系数法进行初步筛选出最为相关的特征。随后用特征选择策略进一步筛选,剔除次相关特征和冗余特征,形成最优特征子集。实验结果表明,特征抽取方法所选的特征子集对不同回归算法的预测效果的影响不同,在最终申购值的12列特征、赎回值的10列特征时达到最佳子集,对大多数不同的回归算法可以得到较好的预测效果。因此可以确定此特征子集作为下一步算法预测的最优特征子集。2.为解决数据集不稳定,多噪声的问题,采用分步回归算法对特征子集进行训练学习,提高回归预测准确率。本文提出的是两步特征预测方法,即单步特征预测是运用灰度预测、时间序列算法对未来时间的未知特征进行预测,将预测的特征添加到未来时段的已知特征子集中。随后结合BP神经网络对所有特征集合进行训练建模,得到最终的预测结果。将该算法与集成学习方法对比,运用基于Adaboost的梯度提升回归树和基于Bagging的随机森林回归算法分别对数据集进行训练。由实验结果分析,发现两步特征预测算法较其他算法减小了预测误差,部分算法比集成学习方法的预测效果更佳。3.本文对离散类型的特征子集进行one-hot稀疏编码,考虑因子分解机算法在处理稀疏数据集时作用显著,运用该算法进行回归预测。由于因子分解机算法可以较好地表达变量间的相互作用,相当于在原有特征变量的基础上还增加了二次交叉特征,更好地刻画数据集的特点。此外,因子分解机的算法复杂度不太高,且运行效率高。实验表明,因子分解机算法在一定程度上可以提高资金流入流出量的预测准确率。
其他文献
供应链金融是银行等金融机构着眼于供应链整体而非单个企业,协调供应链中的资金流、物流和信息流,向供应链各环节中的企业所提供的一种系统性金融服务。在我国经济进入“新常
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本实验以菠萝皮渣羧甲基纤维素、海藻酸钠为原料,制备了菠萝皮渣羧甲基纤维素/海藻酸钠复合水凝胶珠,用于固定化菠萝蛋白酶。采用单因素法分析菠萝皮渣羧甲基纤维素与海藻酸
目的:探究Nd:YAG激光治疗仪在不同病变类型后发性白内障中的应用效果及对患者血小板衍生生长因子A(PDGF-A)表达的影响。方法:回顾性分析医院收治的146例(146眼)后发性白内障
文章设计了一种垂直极化磁性收信天线,详细论述了该天线的设计方法,并给出了天线系统的方向图。
采用有限元法和Garofalo-Arrheninus稳态本构方程,在热冲击条件下对倒装芯片球栅阵列封装(FCBGA)器件SnAgCu焊点的可靠性进行分析.结果表明,Sn3.9Ag0.6Cu焊点的可靠性相对较
“欧典事件”折射出我国市场部分中介组织存在信用缺失。信用缺失会助长市场失信行为的蔓延,扰乱正常的市场经济秩序,给市场经济的健康发展带来一系列负面影响。解决这个问题的
糖尿病神经病变是糖尿病常见的慢性并发症和主要的致残因素之一,其病因主要是长期严重的高血糖及由此而导致的代谢障碍、微循环障碍.目前无确实有效的治疗方法,鉴于前列地尔
采用模糊线性隶属度模型等评价方法,对湖南省怀化地区鱼腥草种植基地的土壤质量与养分进行了综合评价。结果表明,土壤质量(包括pH、镉、铬、汞、铅、砷、铬、滴滴涕和六六六等指
导数知识是高中数学学习的一个重要内容,但导数知识具有一定的抽象性,使得学生不易理解掌握,错误频现,在高考中的得分率也不高,解题中的错误有以下几点值得同学们思考。1.误