基于机器学习的大数据系统性能预测研究——以某商业银行大数据系统为例

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户:wan6415383aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网+时代下,各种新技术的出现极大地改变了人们的生产和生活,商业银行的数字化转型势在必行。数据处理技术由原来的单一数据库、数据集市、数据仓库等传统离线数据分析模式(OLAP)进一步发展为融合了离线分析、流式计算、在线分析等模式的复杂场景,数据处理对象也由单一的结构化数据逐步向半结构或非结构化数据拓展。大数据平台所承载的业务场景日趋复杂,数据量呈现出爆发式增长,技术平台也从传统的集中式向分布式架构进行转型。如何保障企业级大数据系统在面向业务发展赋能的过程中稳定运行成为信息系统建设的关键之一。在商业银行大数据系统中,系统作业是业务逻辑的载体,系统作业运行过程中可能存在性能隐患,这其中以事中作业性能风险和事前新增作业性能隐患最为致命。事中作业风险是指已经在生产环境中运行的大数据各系统作业超时和中断的情况,作业加载的数据体量、关联逻辑的复杂程度等都可能影响作业运行的时效。事前作业风险隐患是指随着银行业务种类的增长和经营范围的扩展,在大数据系统中反映出来的是更多的新增作业被带入生产环境,这些新增作业在不进行性能隐患排查而直接投放至生产极有可能造成作业中断的现象,从而造成经营损失。在事中作业性能风险预警方面,本文以K-Means(K均值聚类)+ARIMA(差分自相关回归移动平均模型)与K-Means+LSTM(长短期记忆人工神经网络)作为对比模型。数据选取生产环境2019年6月至2020年6月一年内的15300个样本,综合考虑作业运行时长的均值、方差等基本统计指标以及作业所在系统,使用聚类方法获取高风险隐患作业。随后,通过传统统计算法ARIMA和深度学习算法LSTM完成相应风险隐患作业的时序预测。在事前作业性能风险排查方面,本文通过关联性分析从ETL调度指标、作业逻辑代码指标和大数据系统集群相关指标选中如SELECT出现次数、作业并发数、JOIN表个数等22个维度作为模型的输入特征。以RandomForest(随机森林)和XGboost(极限梯度提升算法)作为对比模型,针对15300个样本实现了回归预测。经实验分析,本文提出了 K-Means+ARIMA+XGBoost的组合模型来实现大数据系统事中性能风险隐患精准预警和事前性能风险隐患精确排查。该组合模型较之其它对比模型表现优异。构建完成后的模型为商业银行大数据系统带来的提升是多方面的,首先在事前通过组合模型可以直接排查大数据系统新增作业性能风险隐患,并通过特征贡献度,给出代码及架构层面修改意见。将性能风险扼杀在作业代码开发阶段;其次针对大数据平台生产环境已在运行的各业务系统作业,通过性能预警的方式在T日提前预警T+1和T+2日的作业性能风险。提前将风险作业告警至生产运维系统进行人工干预。组合模型的提出极大地降低了商业银行大数据系统因性能风险带来的损失。
其他文献
股权激励作为一种长期性激励手段,在业界被广泛应用,可以帮助企业留下人才,并解决委托代理引发的一系列问题。在目前的经济形势下,企业之间的竞争尤为激烈,人才也成为企业争相争夺的要点所在,所以企业必须要加快完善企业激励机制。对于我国而言,在股权激励制度方面,该制度的推广时间相对于西方国家更晚,但由于股权分置改革政策等相关保障措施的退出,这项制度迅速在多家上市企业得到推广,可以看出股权激励对于改善企业治理
学位
当前,汽车产业处于智能化、网联化、电动化、共享化的发展趋势和潮流下,汽车技术与信息通信、能源、交通等有关领域加快融合、协同发展。随着新技术的不断应用、零部件数量不断增加,汽车零部件的质量、成本及交付直接影响着整车的质量和价格水平以及生产运营,供应商管理能力已逐渐成为汽车企业的核心竞争力之一。受新冠疫情以及未来合资股比取消限制的影响,汽车市场下行压力加大,仍有诸多跨界企业不断加入汽车产业变革大潮中,
学位
伴随着习近平总书记“绿水青山就是金山银山”的号召,2015年至今,环保督察持续高压,多项监管政策陆续落地,我国环保行业进入了高速发展的新阶段。但在行业高速发展的同时,环保企业应收账款规模大、周转率低、坏账准备金额高的问题逐渐显现,普遍较低的应收账款质量逐渐成为掣肘我国环保行业高质量发展的短板。因此,对我国环保企业应收账款质量的考察与研究就变得尤为必要。本文构建了对应收账款规模、增长及风险三个维度的
学位
生态环境部办公厅2021年5月31日印发《关于加强高耗能、高排放建设项目生态环境源头防控的指导意见》,提出推进“两高”行业减污降碳协同控制,依排污许可证强化监管执法,从而加强“两高”项目生态环境源头防控。本文通过分析“两高”上市公司污染排放等环保指标与财务指标,结合《排污许可管理办法(试行)》政策的落实情况及碳市场试点工作的运行情况等环境政策影响,确定压力情景、梳理传导路径,并将双重差分模型(DI
学位
研究乙基纤维素(EC)的玻璃化温度(Tg)和熔融温度(Tm)以及冷却方式对其制备凝胶化油脂的力学特性和氧化特性的影响,阐明氢键形成效应与EC凝胶化油脂氧化速率的相关性。结果表明,在EC(黏度40~50 mPa·s)的Tg(135 ℃)和Tm(187 ℃)下制备的凝胶化油脂均具有类固体行为。与Tg相比,Tm制备样品的储能模量和硬度等质构特性较高,25 ℃贮藏30 d后的顶空耗氧量为0.71%。偏光显
期刊
中国现代化支付系统(CNAPS,China National Automatic Payment System)也称为“中央银行支付清算系统”,是中国人民银行按照中国支付清算需要,利用现代化信息技术建设的应用系统,其核心包括中央银行支付清算系统、第三方服务组织支付清算系统、银行业金融机构行内支付系统、金融市场支付清算系统,负责跨级构建的网络交易资金清算。支付体系通过提供必要的资金转移机制和风险管理
学位
我国信用债的隐性担保自2014年开始逐步取消,信用债违约开始成为常态化事件。2021年全年发生信用债实质性违约事件达243起,违约金额高达2504亿元,为2014年的193倍。然而信用债违约常态化,并不是一味负面的。我国信用债违约率还很小,将信用债违约率控制在适当的范围,更有利于市场的稳定。在这样的背景下,通过研究并找到合适的模型对信用债风险进行评价对推动债券市场成熟稳健发展具有重大理论和现实意义
学位
农业是维持国民经济平稳运转的基础,农用地是农民最基本的生产生活保障,具有保护粮食安全、维持社会稳定等复合功能。土地具有有限性与稀缺性,如果任由市场配置土地资源,会导致土地流向经济利益最大化的领域,尤其是工业领域,从而忽视土地的农业价值,因此有必要对农用地用途进行管制,防止农用地出现“非农化”现象。农用地用途管制作为防止农用地“非农化”的基础制度,具有刚性约束力,成为治理农用地“非农化”、耕地“非粮
学位
大数据时代下,高维数据降维是数据处理的有效形式,可以将规模庞大、复杂性高的数据转化为易分析、计算和储存的低维数据,有效提高用户数据处理效率。本文立足于人脸识别领域,探讨高维数据降维处理背景、意义与原理,并结合实证研究探讨降维算法的应用形式,为人脸识别系统中降维算法优化与应用提供一定参考。本文在介绍人脸识别、高维数据降维有关概念、技术和方法的基础上,针对边界fisher分析、最大间距准则在降维处理中
学位
季节交替,宝宝因为自身发育不全,抵抗力弱,很容易因为感冒或其他原因引起发热。虽然宝宝发热是一个老生常谈的话题,但是仍然有很多护理要点需要宝爸宝妈多加注意和关心。本文将介绍关于宝宝发热护理需要注意的问题。
期刊