【摘 要】
:
随着移动互联网、4G/5G、物联网等技术的快速发展,各类应用所积累的数据规模正在飞速增长,大数据时代已然到来,成为眼前的现实。在2003到2008年间,谷歌公司发表了一系列关于大数据系统的论文,引起了延续至今的工业界和学术界的研究热潮。在这一阶段,Hadoop/Spark/Flink等技术已经逐渐成熟,成为了海量数据处理的基本解决方案。然而,由于短视频、智慧城市、数据可视化、交互式分析等新领域的兴
论文部分内容阅读
随着移动互联网、4G/5G、物联网等技术的快速发展,各类应用所积累的数据规模正在飞速增长,大数据时代已然到来,成为眼前的现实。在2003到2008年间,谷歌公司发表了一系列关于大数据系统的论文,引起了延续至今的工业界和学术界的研究热潮。在这一阶段,Hadoop/Spark/Flink等技术已经逐渐成熟,成为了海量数据处理的基本解决方案。然而,由于短视频、智慧城市、数据可视化、交互式分析等新领域的兴起,上述大数据系统受限于CPU在并行计算能力和能源效率上的不足,难以满足时效性以及经济性的需求。一个很自然的想法是采用非CPU的新平台来执行计算。在最初,图形处理器(Graphics Processing Unit,简称GPU)是用于游戏图形渲染的专用加速硬件。但由于GPU架构具有不同的设计取舍,相对于CPU具有更高的并行计算潜力,工业界和学术界着手发掘GPU在非图形学的通用计算领域的应用。目前基于GPU的方案已经在深度学习和高性能计算领域获得巨大成功。很自然地,人们联想到将高并行的GPU引入到大数据处理场景。由于大数据处理从本质上更接近数据密集型负载,与此前的高性能计算负载不同,需要考虑不同的优化策略。特别地,CPU和GPU间分离的物理内存空间通过带宽有限的PCIe总线互连,限制了两者的协同工作。此外,GPU上的显存相对于主存,在容量上也较为有限。在这些特性的限制下,现有技术难以直接迁移到CPU-GPU异构平台下。因此目前迫切需要改进现有技术,以应对新的挑战。本文的研究工作围绕CPU-GPU异构架构展开,并从三个方面研究如何挖掘新型GPU的硬件加速特性,优化数据处理技术。本文主要的工作和贡献如下:(1)异构加速的数据分析框架:现有的大数据系统,如Apache Spark等,计算能力受制于Java虚拟机(JVM)限制,难以满足日益苛刻的需求。近年来,具有高算力的GPU在高性能计算和和深度学习领域获得巨大成功。尽管如此,受制于现有耦合式架构的限制,数据分析系统难以利用GPU等新型硬件加速器。为了从基础架构上解决上述问题,本文将数据分析的执行过程拆解为相互分离的控制平面和数据平面两个部分。其中,控制平面负责维护轻量级的控制信息,并与现有大数据系统相互配合,而数据平面则负责在裸机CPU和GPU上高效地执行计算。在解耦合的架构下,数据平面的底层实现得以绕过已有控制平面的限制,从而充分挖掘CPU和GPU的潜力,实现相对于JVM引擎处理能力具有最多14.7倍的性能提升。(2)GPU推断的缓存与批量执行优化:随着深度学习的流行,GPU推断已经成为大数据系统的重要组成部分。然而,随着GPU算力的逐渐进步,非计算因素将逐渐成为瓶颈。在目前基于推断服务的解决方案中,数据处理和推断执行的分离限制了端到端的优化潜力。本文尝试将两者综合考虑,降低了从输入数据到GPU执行中的非计算性开销。在这个设计上,本文提出了近设备缓存技术,挖掘GPU显存上的数据局部性,降低PCIe传输量。在传统的批量执行上,本文引入聚合/分散原语实现缓存感知的批量执行技术。最后,为了避免缓存更新和执行的并发冲突,并同时利用GPU的传输和计算资源,本文提出了基于交错执行和周期性同步的调度协议。实验显示综合上述技术可以实现相对数据处理和推断分离方式最多3.5倍的性能。(3)分离式CPU-GPU架构的流水线优化:受限于CPU-GPU系统的分离物理内存,异构流水线常基于微批次机制及其变种来实现,主要面向粗粒度执行负载而优化。对于细粒度的执行批次,频繁的GPU软件驱动调用将成为潜在的性能瓶颈。为了解决上述问题,本文研究了面向分离式CPU-GPU系统的连续流水线技术。该技术利用了流水线负载的计算不变性,引入了持久化算子和共享队列两项技术。这两者的设计思想旨在挖掘新型GPU的硬件缺页机制,代替昂贵的基于软件驱动的显存拷贝和核函数启动。其中,持久化算子用于在GPU上高效执行计算,而共享队列负责实现跨设备的高效数据传递。实验显示相对微批次流水线,连续流水线技术最多可获得2.4~3.1倍的性能提升。综上所述,本文结合新型CPU-GPU平台的特性,从异构加速的数据分析框架、GPU推断执行优化、CPU-GPU流水线执行优化三个角度,阐述了将GPU引入大数据处理场景下面临的种种难题,及其优化策略。本文为实现面向异构硬件平台的高效大数据处理提供了借鉴意义,也为未来的相关研究工作提供一定的参考价值。
其他文献
在自然界中,生物大分子的显著特征之一就是其结构的复杂性。数以万计的原子以复杂的三维构型聚集在一起。结构的复杂性对于体内环境的有序调控起着至关重要的作用。人工设计并构建的生物大分子应具有强大的功能性,并且可实现自定义设置。建立具有明确结构的可实现特定功能的人工分子,一直是科研工作不断追求的目标。使用核苷酸或核酸分子构成的生物分子聚合物,弥补了传统无机纳米材料没有特异性识别功能的缺陷,这为体系中各个分
工程装备在运行的过程中会产生不同程度的振动噪声,剧烈的振动噪声不仅会造成工程结构的失效破坏,更重要的是会影响人们的日常生活。因此减振降噪在实际工程领域具有重要意义。由于外部激励以及结构系统自身的复杂性,噪声在不同频率范围内具有不同的表现形式。低频范围内的噪声频谱分布比较明晰,高频范围内则呈现出均匀化的趋势,而中频区间恰恰表现出了二者混合的特点。另一方面,对于低频和高频噪声分析工作,分别已有较为成熟
城市是大部分人类现在和未来生活的地方。全球快速的城市化不仅带来了经济和科技的高效和集聚,也带来了社会、环境和资源等方面的一系列城市问题。二十一世纪以来,全球国家、地区和组织都开始致力于解决城市发展问题,研究城市发展的科学途径,提出了“可持续发展目标(Sustainable Development Goals,SDGs)”、“新型城镇化”及“城市高质量发展”等目标或战略,科学测度城市发展状态作为其中
相互作用可调控的超冷费米气体为研究强相互作用的物理提供了很好的实验平台。特别地,当表征碰撞相互作用大小的低温散射长度可利用所谓的Feshbach共振调控为无穷大时,实现量子力学所容许的最强相互作用的量子气体,这确保了气体的行为与粒子间相互作用的微观细节无关,表现出与各种强相互作用系统相同的普适热力学性质。强相互作用的双组分费米气体是自然界其他奇特系统的原型,包括高温超导体、夸克胶子等离子体和中子星
从我国科研院所设立与分布来看,我国科研体系已具备相应的规模以及相对独立的研究体系。农业科研院所是农业科学院下属的直接参与到农产品技术研发、食品科学技术研究的国家级科研部门,其是我国农业科研的关键部门,也是中坚力量。随着经济的快速发展,我国农业科研力量不断壮大,对建设地区农科研院所所需设备、经费、技术和政策的支持力度不断提高,为我国农业科技研究与创新提供更有利的外部环境。我国农科研院所团队的建
模型验证是一种重要的自动化验证技术。给定一个软件或者硬件模型和相应的安全性质,模型验证技术可以自动化地验证模型是否安全,从而保证软件或者硬件系统的可靠性。该技术自提出以来就受到了广泛地关注,并很快被工业界应用在了实际的硬件设计及软件开发中,相应的模型验证工具也如雨后春笋一般层出不穷。然而,除了大型企业会为它们的特别需求设计专门的模型验证工具之外,在普通的硬件设计和软件开发流程中,模型验证技术的普及
情感分析作为自然语言处理的重要子任务之一,在学术界和工业界都受到了广泛的关注。该任务的目标是预测给定文本中用户表达的情感,情绪,观点和态度等。许多平台(如论坛、博客、社交网络、电子商务网站、新闻报道和其他网络资源)都可以表达观点,对这些观点的分析,可以用来理解用户对社会和政治事件、企业方针、经营策略及商品属性等的态度,从而进行舆情监控,改进公司产品和服务等。传统的情感分析算法,大部分基于人工规则、
单光子是飞行的量子比特,它具有运动速度快,与外界环境的相互作用较弱,适合长距离传输,以及量子态易操控等特点。因此它在量子科技领域中具有重大应用意义,并且在未来量子网络技术中也将扮演重要角色。此外,单光子作为量子比特在量子通讯以及量子精密测量等领域,具有十分重要的科学研究价值和技术应用的潜力。基于单光子源实现原子系综之间的量子纠缠交换、单光子态的隐形传输等也在原子系综中相继实现。冷原子系综这种介质平
海洋浮游植物是海洋初级生产者,是海洋食物链的基础组成部分,不仅对海洋生态系统的修复起着关键作用,对海洋乃至全球生物地球化学循环都起着重要的作用,因此,针对海洋浮游植物的科学研究具有重大的科学意义。相比于传统方法实地采样后再在实验室中通过显微镜进行浮游植物种类的区分研究,卫星遥感技术具有大范围、长时间周期以及高效率等优势,因此,通过卫星遥感技术来研究海洋浮游植物种类信息具有重要的科学意义。近年来,随
强化学习是一类学习“做什么”的机器学习算法。它的目标是学习一个策略函数来解决序列决策问题,也就是将环境的一系列状态映射成一个动作序列以最大化整体行为的数值奖赏。不同于监督学习,强化学习的智能体不会被告知要采取哪些动作,而是通过尝试去发现产生最大奖赏的动作。基于探索产生的非最优的行为数据,强化学习可以学习到最优或近似最优的策略。近年来,强化学习陆续在围棋,星际争霸,DOTA等游戏或者仿真环境中战胜了