人工智能模型训练中的加速芯片调度效果优化实践

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户:kzyzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对研究和生产中模型训练集群中异构、同构的NPU调度效率问题,提出4种调度策略;经过在科大讯飞实际生产实践,可以有效提高调度效果,提升NPU资源的利用率。
  关键词:人工智能;NPU;并行策略
  引言
  自 1956 年人工智能概念被提出之后,人工智能技术因算法收敛、计算机计算力的问题,经历几次波峰波谷式迭代发展。近几年经过不同领域科学家的坚持研究,如 BP 算法提出、高性能计算芯片的研发成功,促进了人工智能技术飞速发展。现在,人工智能技术在语音语言、图像视频、自然语言理解等方向上有重大突破,并在医疗、教育、工业制造等领域取得了显著的成绩。
  人工智能技术是模型驱动型技术,利用模型和输入的参数进行计算从而实现语音语言、图像视频、自然语言理解的任务。在研究和生产实践过程中,有两个重要的过程;其一、进行人工智能模型的训练,其二、使用模型进行生产实践。训练过程需要很大的计算量,常规的CPU难以高效率的完成训练任务,例如1万小时的语音数据训练如果使用一颗常规的CPU需要1个月时间;为此,学术界和工业界都是使用专门的加速芯片(统称NPU)进行模型的计算训练;1万小时的语音数据训练,使用专用的GPU进行计算,只需要半天时间。所以,使用NPU进行模型训练是必须的选择。在大规模的研究和生产实践中,提升加速芯片调度效率非常重要。
  一、同构加速芯片调度优化
  (一)同构芯片
  如图中所示,模型训练程序面向加速芯片的运行时驱动进行编程;运行时驱动调用物理芯片进行实际计算。随着物理芯片工艺制程提升以及芯片微架构的演进,芯片厂商在不同阶段会生产出使用方式不同的物理芯片。运行时驱动可以屏蔽不同时期的芯片的使用方式的差异。使用统一运行时API的不同物理芯片称为同构芯片,如Nvidia公司的Tesla K40、Tesla M40、Tesla P40、Tesla V100等;对于同构芯片,可以使用同一套代码编译的程序。
  (二)调度策略
  策略一,按照任务需要芯片数量分组。因服务器制造工艺的水平,现在一台服务器有支持4颗NPU、8颗NPU两种规格;考虑到计算与传输平衡的问题,训练有使用1颗NPU进行计算的单芯片程序,有使用4颗、8颗、16颗NPU进行计算的多芯片程序。本文提出按照单芯片程序和多芯片程序的应用场景,将NPU集群中的服务器分成两个组即单芯片程序运行组和多芯片程序运行组。同时,规范单芯片程序只能运行在单芯片程序运行组中。
  策略二,常规和预留分组策略。在实际研究和生产过程中,研究和生产活动有轻重缓急;人工智能训练任务是数据密集型任务,一次训练需要很长的时间进行训练。如果不能处理好紧急任务和常规任务,那么紧急任务的需求很难满足。在这种情况下,设置常规运行组和预留应急运行组,以满足不同紧急度的任务需求。
  二、异构加速芯片联合调度优化
  (一)并行计算
  着研究和生产推进,人工智能模型训练的数据越来越多、模型结构越来越复杂,导致计算量越来越大,单芯片很难满足研究和生产的需要。为了加快计算时间,提升研究和生产的效率,采用并行计算策略非常重要。并行计算策略有2种具体的方案,即数据并行和模型并行。数据并行即将训练数据分布在不同的NPU上计算,最后汇总不同NPU上的模型计算结果;模型并行即将模型计算的不同部分分布在不同的NPU上进行计算,最后直接输出计算好的模型。
  (二)调度优化
  其一,异构芯片各自计算不同数据。训练服务器集群在建设的过程中,会存在不同厂商的NPU芯片的情况。如图1所示,训练程序针对不同厂商的运行时驱动进行适配编译,即可运行在不同的厂商的硬件芯片上。这种情况下,可以采用数据并行的策略。需要注意两点:第一,不同芯片运行的程序的二进制文件不同,注意做好调度;其二,不同芯片计算性能不同,注意针对不同的芯片分配不同的计算数据。
  其二,异构芯片分别计算模型不同部分。随着研究的深入,人工智能模型结构越来越复杂、模型的规模越来越大;NPU芯片因“加速性能-存储性能”的平衡考虑,NPU集成存储的可用空间有时不能满足实际研究和生产的需要。这种情况下,可以将模型的不同计算部分拆分成不同的计算程序运行在不同的计算部件上。如,在自然语言理解的模型上,大部分情况下模型最后一层參数非常庞大,这一层存储在内存中,使用CPU进行计算;即,使用CPU和NPU协同进行模型的计算。
  三、结语
  人工智能实际应用给社会带了翻天覆地的变化;可被采集的大规模有效数据和高性能的计算芯片出现,推动了人工智能技术的演进。与此同时,带了实际研究和生产中计算资源调度复杂度的挑战。本文阐述了在同构、异构的NPU场景下,不同复杂度的模型训练任务的调度优化策略;经过在科大讯飞公司的实际实践,能提升实际研究和生产的计算资源的综合使用效率。
其他文献
摘 要:随着社会的发展以及人们生活水平的不断提高,各种火灾事故发生的频率也越来越高,这也为消防工作的开展带了很大的压力。这也提醒我们应该加强对消防监督检查方面的工作力度,提升社会各界关于消防安全方面的观念和意识。消防监督检查工作的加强和完善,不仅需要相关监督管理部门的努力,也需要社会各界的共同协助。随着人类科技水平的进步以及互联网络的发展,全球都进入了大数据时代,大数据在各行各业中广泛应用,也体
期刊
摘 要:AFC系统即城市轨道交通自动售检票系统,主要是利用现金或城市公交一卡通作为轨道交通支付手段的一种传统支付方式。随着移动设备和智能终端与互联网在轨道交通行业的大范围应用,在AFC系统当中应用移动支付的方式也得到了进一步的发展。利用移动支付的方式在AFC系统中进行刷卡乘车,一方面能够提供给乘客更加便捷的服务和享受,另一方面也能减少城市轨道交通企业在经济处理工作上存在的不足,从而降低企业的运营
期刊
摘 要:在通信工程建设中要合理的应用各种现代化的网络技术。5G技术与软交换技术作为通信工程核心技术,可以有效的推动电子信息技术的发展。在电子信息中应用5G技术与软交换技术可以有效的满足各种通信需求。分析5G技术与软交换技术的特征,综合电子信息技术的发展,探究5G技术与软交换技术在电子信息中具体应用,是文章研究的重点。  關键词:5G技术;软交换技术;电子信息  在信息时代,网络业务的范围以及内容
期刊
摘 要:大数据是现代社会发展中使用最为广泛的高新技术,大数据极大地方便了人们的日常生活,提高了社会生产率。它作为信息资本和数据资源对创设社会治安防控工作产生了重大影响,它能够统筹规划全局,根据信息数据文本分析社会中的潜在的危险数据做出防控和预测,提高公安机关的破案效率,制定科学的防控预警机制。未来的社会是信息化社会,信息化社会的发展离不开大数据的支持,如何把大数据技术应用在社会治安防控中,是目前
期刊
摘 要:经济的不断发展和人民生活水平的提高,使得用电量需求逐渐增加,未来也会持续的增长,而随着用电需求的增加,电力企业在客户服务方面也要有所提高和改进。本文分析了新形势下电力客户服务的现状,并对新形势下电力客户服务改进措施进行了探讨,希望可以通过改进服务质量提升电力市场的竞争力。  关键词:新形势;电力;客户服务;客户需求  引言:社会经济的持续发展,人们的生活水平也在不断进步,在这样的新形势背
期刊
摘 要:在企业的快速发展中,后勤管理是企业后勤服务保障,对企业具有较大的积极作用。企业的竞争随着社会经济的发展变得越来越激烈,企业要想在这样激烈的竞争下立于不败之地,就必须要加强对后勤管理的改革,深刻认识到后勤管理的作用。以往企业并不重视后勤管理,但后勤管理对企业的生产经营具有关键性作用,本文主要分析企业后勤服务保障中后勤管理的作用与改革。  关键词:企业后勤;服务保障;后勤管理;管理作用  一
期刊
摘 要:机器学习主要分为联邦学习和集中学习两种训练模式,而大规模的数据收集也大大提高了机器学习的经济效益、社会效益,使其性能得到了良好的保障。但其学习系统的隐私与安全问题也在面临着巨大的挑战,各种攻击手段都层出不穷,因此对于其攻击手段开展防御研究十分有必要。本文就目前机器学习系统面临的隐私、安全问题的攻击手段、防御措施展开了研究,希望能够推动机器学习体统的发展。  关键词:机器学习系统;隐私;安
期刊
摘 要:现如今,随着经济的不断发展,我国农村的消防工作也有了很大的进步,与此同时,农村人民生活水平在不断提升的基础上,人们用电、用气量也有所提升,这样会加大火灾的发生几率,加上农村人民的防火意识也相对较差,这很容易导致重大火灾事故的发生,鉴于此,为了保障农村人民的生命财产安全,相关部门一定要制定有效的应对措施,而本文则是就农村防火工作存在的问题及对策为议题展开论述。  关键词:农村防火工作;对策
期刊
摘 要:随着信息化水平的不断提升,智慧城市的概念越来越普及,人们在当代生活更渴望的是舒适、安全、便捷的家居生活。现如今大数据、云计算、5G、物联网、人工智能技术正在普及,智能安防系统也受到了更多的重视。现如今我国的智能安防系统还存在着较多的不足之处,发展速度并不理想,想要建设智慧平安城市仍然还需要进一步努力。  关键词:智能安防系统;平安城市;信息技术  新时代我国发展形势良好,越来越稳定,越来
期刊
摘 要:“安康杯”是取“安全”和“健康”之意而设立的安全生产荣誉奖杯,“安康杯”竞赛活动是提升管理水平、提高职工安全意识和安全技能、实现安全生产群众监督的一项重要活动,也是保障职工安全与健康的重要举措,煤炭企业为适应新时期产业工人建设改革及绿化智慧矿山建设发展需求,不断转变生产方式和管理模式,新形势新变革都对“安康杯”竞赛活动提出了新的要求。本文以山东能源新矿集团翟镇煤矿为例,论述煤矿企业在开展
期刊