基于CPU-GPU协作环境的快速大规模SVM训练

来源 :南开大学 | 被引量 : 0次 | 上传用户:snake_9655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着图形处理器(Graphic Processor Unit,GPU)的计算能力的增强,其主要用途由图形渲染过渡到通用计算方面,GPU的定位也逐渐演变为具有众核架构的通用处理器。在现今以主核心辅以协处理器模式的CPU-GPU异构并行系统中,兼顾了CPU与GPU在通用计算方面不同的优势,提供了一种优秀的程序设计思路与系统组成方法。基于CPU-GPU异构协同环境的集群作为一种有效的提供并行计算资源的途径,已经得到了科学及工程中计算模拟、海量数据处理等研究领域的广泛应用。  支持向量机(Support Vector Machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法,是当今使用机器学习解决分类问题的重要途径。支持向量机基于结构风险最小化原理,具有全局优化、泛化能力强等优点,已成功应用于人脸识别、文本分类、生物信息学等研究领域。SVM的训练实质上是一个带有约束条件的凸二次优化问题,可以利用原-对偶内点法(Primal-DualInternal Point Method,PD-IPM)对其进行求解。基于内点法的支持向量机在解决小样本、高维数据的模式识别领域具有特有的优势,但是,面对如今庞大的海量数据,占用内存大,训练时间过长的缺点日趋明显,还有待完善与拓展。  针对大规模SVM训练存在的内存需求大,运行时间过长的问题,本文提出一种基于CPU-GPU异构协同环境下的快速大规模SVM训练方法(CGC-SVM)。首先,利用GPU对于计算密集型问题高性能的处理特性,通过使用CUDA语言和NVIDIA提供的CUBLAS库,对IPM算法中计算密集部分进行了算法优化。其次,针对GPU提供数据存储空间不足的问题,提出使用主机端页锁定内存进行数据存储并使GPU线程直接访问的方式,扩大了GPU可访问存储容量,使CPU/GPU两端共享数据存储空间成为可能。再次,为了解决使用页锁定内存技术带来的带宽与计算性能的损失,提出了基于分块流水机制的CPU-GPU协同SYRK实现。最后,利用MPI+Multi-threads+CUDA(MMC)编程模型将实现扩展至集群,进一步降低了针对于大规模数据集的SVM训练的单一节点的内存需求。在千兆网连接的四节点GPU集群系统环境下,利用不同规模的数据集adult、ijcnn1、covtypes、rcv1、epsilon、url进行实验。结果表明,CGC-SVM在满足精度要求的同时,能够在较大规模的的数据集上获得最高10倍于单纯利用CPU进行SVM训练的性能,在存储、计算及可扩展性上均展现了出色的性能。此外,本文所提出的基于CPU-GPU系统环境的SYRK实现,与单纯利用CUBLAS接口实现的SYRK相比,扩大了数倍的可计算规模,并且在充分利用节点计算资源的同时,取得了更好的计算性能。
其他文献
工资管理系统的开发从八十年代末就已经开始了,从最初的简单查询、统计功能到后来的工资自动确定,可以说发展较快,也产生了各种各样的工资管理系统软件,各有特点。九十年代末针对
随着电子政务的规模化发展,电子政务在政府的实际工作中发挥着越来越重要的作用,政府部门网上办公已经成为一种必然趋势。然而,来自网络、单位内部的安全威胁严重制约着电子
由于市场的不断发展和客户期望的增加,在全球数字经济环境下,企业被迫不断改善自己以适应环境,从而创造更大的客户价值。企业为了适应市场需求、保持持久的竞争力,一方面要基
XML是Internet上优秀的数据交换格式之一。近年来,学术界和工业界对XML数据处理投入了很大的热情。为了有效地组织和管理XML数据,研究人员提出了不同的解决办法。其中,人们较
随着网络上基于XML文档数据的大量涌现,如何从XML数据源中准确有效的查询所需信息的研究,也就变得越来越重要。为了解决XML查询问题,W3C设计了XML查询语言—XQuery,适用于对
近年来,随着我国对人造板需求的不断增加,木材胶粘剂的生产过程受到了越来越多的重视;胶粘剂生产现场环境恶劣,传统的人工长期监守方式生产成本过高,采用电子设备对反应釜温度
随着现代化网络教育技术的发展,如何在网络环境下研究并建立一个全面的、有效的、安全的专业实验教学管理系统,已经成为近几年研究人员所关心的热点问题之一。实验教学管理系
随着计算机网络及电网自动化水平的提高,电力企业对信息系统的依赖性越来越强,同时面临的安全问题也越来越大。在日新月异的攻击手段面前,依靠传统安全技术来维护系统安全远
随着计算机网络技术的高速发展,利用广泛开放的网络环境进行全球通信已成为时代发展的趋势。但是,网络在提供开放和共享资源的同时,也不可避免的存在着安全隐患。目前,安全问
伴随着智能化、网络化趋势的发展,计算机技术进入了一个新的充满机遇的阶段——后PC时代,在这一阶段,嵌入式系统代替PC成为时代的主流。然而传统的单处理器结构已经不能完全