众核架构上数据分析应用的优化方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liuandhll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,蓬勃发展的大数据技术和机器学习技术为大规模数据分析应用提供了必要的基础支撑和技术手段。然而,数据规模的持续增长和日趋复杂的数据挖掘算法,对系统的性能和处理速度提出了严峻的考验。人们研究了各类新型硬件架构来满足数据分析应用的加速需求,众核架构就是其中的一种。然而,由于数据分析应用的多样化,以及新兴众核与现有多核在体系结构上的固有差异,使得在众核架构上优化数据分析应用变得极富挑战性。本文围绕数据分析应用在众核架构上的优化方法展开了一系列研究,主要内容如下:  1)鉴于目前尚没有众核架构(Intel Xeon Phi)上针对数据分析应用的基准测试集,本文基于BigDataBench提出了首个Intel Xeon Phi上的基准测试集PhiBench。PhiBench包含8个负载,覆盖6个应用领域,针对Intel Xeon Phi做了充分的优化,且包含两种数据集大小和两个并行实现版本(OpenMP,Cilk Plus)。  2)本文在两代Intel Xeon Phi平台上设计了一系列的实验来分析PhiBench的性能和行为特征,如SMT(Simultaneous Multi-thread)利用率、cache行为、矢量化密度、分支预测效率等。通过在KNC上的实验,我们发现矢量化密度不能单独作为衡量矢量化性能的指标,矢量化指令比例的作用也很大。另外,我们还发现SpMV与PageRank,IBCF等应用在体系结构特征上很相似,优化SpMV可以帮助大量数据分析应用提升性能。  3)本文设计了一种面向矢量化的稀疏矩阵存储格式,CVR,其基本思想是,将原有的CSR格式中的逐行处理,改为多行同时处理,每个SIMD通道只处理同一行的数据。由此可以大幅度降低矢量化的复杂度,并提升cache内的数据重用率。在58个常用的数据集上的实验表明,CVR在绝大多数的scale-free数据集上获得了最优的性能,平均优于Intel MKL2.84×(最高39.53×);在HPC数据集上,平均优于MKL1.22×(最高17×)。CVR的预处理开销在绝大多数数据集上都低于其它SpMV方法,表明了其实用价值。另外,CVR可大幅提升数据局部性,将SpMV的LLC失效率降低一个数量级。  4)稀疏矩阵中非零元的分布模式,即稀疏模式,决定了SpMV的访存模式,从而很大程度上影响了其性能。为理解该稀疏模式与SpMV性能之间的联系,本文选定了Intel Xeon Phi和GPU平台上的27个不同的SpMV方法进行横向对比,并抽取了43个矩阵特征来描述稀疏模式,分析稀疏模式与各SpMV方法的性能之间的相关性。实验发现,CVR的综合表现最好,可在70%的数据集上逼近最优性能(误差10%以内)。
其他文献
本文针对航天嵌入式软件特点以及软件黑盒测试所面临的问题,提出了一种任务剖面建模的方法。从用户的角度对软件系统进行数学建模,对系统是怎样的以及它会怎样被使用做出一个
自1950年Charney、Von Neumann和Fj(o)rtoft使用计算机制作出世界上第一份数值天气预报图以来,大气模式一直是高性能计算领域最主要的应用之一。大气模式的计算需要海量的计算
学位
随着通讯与计算机技术的迅速发展,越来越多的计算机系统用来提供各种及时可靠的服务,如何保证计算机系统运行可靠、稳定和持久是需要解决的关键问题,这就需要系统具备冗余和
海量数据时代对数据存储提出更高要求,基于LSM树架构的NoSQL应运而生,如Bigtable、Apache HBase和Apache Cassandra等。它们拥有良好的性能、扩展性和灵活性,已经被广泛的使用。
随着互联网的不断普及,电子商务、电子政务、校园电子业务等应用也得到了极大的发展。由于互联网所具有的广泛性和开放性,在上面传输的数据随时面临着被破坏和篡改的危险。如何
保护通信系统信息安全的核心技术包括密码系统和密码协议(也称安全协议)。系统的安全性不仅依赖于所采用的密码算法强度,而且与算法所使用的环境(安全协议)密切相关。密码系统
随着处理器设计难度和复杂度的不断提升,硅后调试在保障处理器设计正确性方面的意义越发重要,可调试性设计面临一定的挑战。首先,对于经典的抢占型的可调试性设计来说,由于调试状
传统嵌入式软件的开发方式是在桌面开发环境下开发初始版本软件,然后当嵌入式系统或者芯片原型可用时,再将软件使用交叉编译器和相关工具移植到目标环境,如ARM,MIPS,PowerPC等。然
随着Internet网络带宽的增加和网络速度的提升,GIS与Internet相结合的基于B/S模式的网络地理信息系统(WEBGIS)得到了长足发展,而且由于其具有的显著优势,正在逐步取代传统C/S