持续训练在机器学习平台中的应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:luo000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模、多样性的数据背景下,机器学习模型在各个领域发展迅速,取得了很好的模型效果和应用价值。如在计算机视觉(CV)产生的人脸识别模型,自然语言处理(NLP)领域产生的机器翻译模型等等,极大地便利和丰富了我们的日常生活。这些模型往往建立在静态数据基础上,通过准确、快速地提取静态数据特征实现回归或分类。基于数据形态不同,除传统的静态数据之外还广泛存在的数据类型是动态流式数据。此类数据通常在金融、交通等场景下以流的形式产生,数据样本的分布和所反映的信息随着时间和环境改变发生变化。这种样本的分布(样本携带的信息)随着时间、环境的改变而发生变化的现象,被称为概念漂移(Concept Drift)。概念漂移会引起模型性能的严重下降(如预测精度降低),给机器学习研究及应用带来了巨大的挑战。近年来,MLOps(机器学习运维)作为一种针对企业中机器学习应用复杂性问题的有效解决方案,开始引起各界研究者的广泛关注。针对应用模型由于概念漂移引起的性能下降问题,本文基于MLOps的工程思想,深入研究持续训练(continuous training)方法,提升应用模型的实时性能,并在机器学习平台中得到具体实现和应用。本文具体研究内容如下:首先,对漂移检测算法进行研究和创新。通过比较历史数据流和当前数据流的数据分布差异,或者根据前一段时间数据流的统计特征变化,来衡量数据分布变化情况。通过漂移检测的结果来判断是否发生漂移,指导模型的升级或者更新,以保证模型的性能。其次,研究一种增量学习方法实现对知识的渐进式更新。对增量学习的模型进行设计,在训练方式上进行研究和创新。在此方法下,模型在能够加强和修正以前的知识的同时,又可以快速适应最新的数据分布。同时对增量学习的性能和资源成本进行对比和分析。再次,基于MLOps思想,结合对概念漂移的研究,设计实现了一套具有完整功能的机器学习平台。通过将持续训练的方法集成在平台上,实现了模型监控,模型升级,模型部署的自动化流程,并针对平台设计的关键组件和技术难点展开叙述。最后,在机器学习平台上,分别在两个发生概念漂移的实际应用任务(车流量预测和事件分拨任务)上进行了实验验证。在经过数据分析,模型设计和实验设计与执行后,通过实验结果得到以下结论:持续训练在保证甚至减少模型的训练和更新成本的情况下,有效减少了应用模型的人工维护成本。并且根据模型本身概念漂移程度不同,分别提升了20%和10%左右的模型性能。对于增量学习的方法,车流量预测模型各个性能指标均提升了30%,事件分拨任务的top1-accuracy指标也有约30%提升。验证了漂移检测算法和增量学习算法的有效性,以及自动化机器学习平台的实用价值。
其他文献
由于近年来证券行业竞争不断加大,“佣金战”不断升级,导致经纪业务的利润贡献率不断降低,加上我国实施金融供给侧改革、扩大金融开放以及实行全面注册制等因素,券商不得不加快传统经纪业务转型。与此同时,中国经济的全面发展促进了社会财富的快速积累,公众对财富管理的需求日益增长,随着《关于规范金融机构资产管理业务的指导意见》的实施,券商财富管理业务市场迎来了新的起爆点。中国国际金融股份有限公司(中金公司)作为
学位
近年来,金融科技正在成为新时代创新与发展的重要主题,当前越来越多公司已经在从事金融科技解决方案相关业务的研发与推广。随着金融科技各类型场景应用的实施与落地,银行、金融机构及政府客户对于金融科技的需求将会日益变多。虽然金融科技业务在将来具备十分广阔的成长空间,但市场机遇增长的同时也带来了竞争的加剧。若OC金融科技有限公司不能在业务拓展、产品迭代、科技创新、成本管控等方面加强实力,将来可能存在因市场竞
学位
随着社会的进步和经济的高速发展,不管身处任何行业,竞争都在日益加剧,在如此激烈残酷的市场环境下,企业为了生存,就必须探索出一条健康的发展路线。在这样的背景下,国内外越来越多的企业开始研究并实践轻资产运营模式,这是一种追求高资本回报率的商业模式。是将企业有限的资源投资到“微笑曲线”上附加值最高的部分,让企业能处在价值链的高附加值环节,从而获得高额收益,著名的苹果、耐克等公司均采用轻资产运营模式,目前
学位
随着互联网、云计算、大数据、数字经济等技术的发展,为商业银行的营销模式带来了空前的机遇和挑战。一方面,银行业传统以标准化的产品为核心的商业模式将无法满足市场个性化、差异化的需求。而基于大数据的精准营销通过提供精细化、精准化的客户定位和市场分析的商业模式,更加适应金融市场的发展需求。另一方面,大客户在商业银行的利润贡献和长远发展中扮演了绝对重要的角色,这也很自然的成为了各大银行所努力争取和抢夺的客户
学位
钢铁已经被广泛的应用于人类生活的各个领域,例如军事,车辆制造,航空航天,高层建筑和一些常见的日用品。因此,钢材的生产过程中的质量检测是非常重要的,而钢材的表面瑕疵检测则是钢材质量检测中至关重要的一个环节。目前,传统的金属瑕疵检测中主要有两类方法,一类采用人工筛选的特征来进行检测,而人工选取特征需要花费大量的时间,且选取到的特征也很难运用到其他领域中去,检测出来的准确率也比较低。另外一类则是采用深度
学位
公共安全与我们每个人息息相关,道路交通安全作为公共安全的一个重要组成部分,关涉到公民的生命、身体和重大公私财产安全。公共交通工具的发展给人们出行带来便利的同时,也给道路交通安全带来了更大的挑战和考验。妨害安全驾驶行为轻则影响车辆的正常行驶,重则造成“车毁人亡”的严重后果,比较有代表性的“重庆公交坠江”案,危害后果极为严重,社会影响尤为恶劣,引起了人民群众对出行安全的担忧。为了及时回应民众的关切,最
学位
自1998年中国公募基金行业诞生以来,已经走过20余年,在政策的大力支持和经济快速发展双重力量的推动下,国内公募基金行业不断发展壮大。近年来,随着国务院放开外资股东及境内自然人担任公募基金公司主要股东的限制,国际资本巨头及国内新兴势力纷纷进入市场,市场竞争也在不断加剧。随着市场日益成熟,行业两极分化加剧,头部基金公司依托股东背景及规模优势日益壮大,其余公司则面临更加严峻的生存挑战。对于新进入市场的
学位
近年来,上市公司高溢价并购导致高商誉减值、融资方式和支付方式不当导致资金链断裂等事件越来越多,这给并购企业带来了较大的财务风险。这些财务风险又会动态传导、由点到面地传播,给并购企业带来了较大的财务危机与经营危机。而连续并购财务风险及其传播是连续且叠加的,一旦爆发,并购企业受到的冲击会更大,因此防控连续并购财务风险是并购企业重要且紧迫的课题。安洁科技上市以后业绩下滑很快,为了提升业绩、多元化经营、延
学位
随着互联网行业的发展,推荐算法已经广泛应用到电商平台之中。由于新技术的发展,商品种类极大繁荣,如何在众多的商品中精确的挑选并推荐给用户,提高点击转化率,是所有电商平台面临的一个挑战。针对现有算法对相同商品的不同图片识别较差,影响推荐算法计算和推荐展示效果的问题,本文提出一种具有旋转不变性的差异哈希算法。算法可以识别不同角度旋转拍摄的同一商品的图像,相比同类算法能够更有效地降低重复商品数量,优化推荐
学位
司法实践中,不动产买卖合同纠纷中涌现出一方当事人借由主张不动产合同无效而获取超出合同预期利益(房屋增值部分或者拆迁安置利益)的案例,在主张合同无效时,毁约方将得以从现有的法律框架中谋求更大的利益。如果不对毁约方的此种背信行为加以规制,放任其利用现有的法律制度完成毁约,不仅会使得违反诚实信用原则一方因此获益,还会损害正常的社会交易秩序、破坏了大众对于诚信原则、公平正义的认知,助长不正之风乃至产生不良
学位