ThunderSVM:一个高效并行支持向量机算法库

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tdj000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是一种传统的监督学习算法,可以用于分类、回归和分布预测,被广泛应用于各种数据分析的实际问题。其中,LIBSVM是应用最为广泛的SVM算法包,它被许多机器学习框架作为底层的SVM算法实现。然而,在大而复杂的问题上,SVM的训练和预测的计算代价很高。LIBSVM针对早期的单核CPU进行了优化,只提供了有限的并行化支持,但随着数据量和问题规模急剧增加,LIBSVM的训练和预测速度往往不能够满足现实算法调试和应用的需求。于是,许多研究者开始研究如何使用高性能计算硬件(例如图形处理器GPU)来加速SVM。然而,并行化SVM还有如下挑战:(1)SVM的训练需要重复地随机访问整个数据集,这导致高代价的随机内存读写和重复的计算;(2)现有的SVM训练算法是针对单核计算机提出的,没有考虑如何充分利用多核甚至众核处理器,充分并行化SVM需要重新设计SVM的训练算法;(3)多分类SVM需要训练多个二分类SVM,同时训练这些二分类SVM需要的内存空间往往超过了现有的硬件资源。为了解决并行化SVM的挑战,本文设计并实现了一个高效的开源SVM软件工具包ThunderSVM,它充分利用了高性能的GPU和多核CPU资源,采用了工作集缓冲的SVM训练算法,减少了内存随机读写和重复计算,利用多分类SVM中的核函数共享和支持向量共享策略压缩了训练和预测过程中的内存。实验表明,ThunderSVM的速度一般比LIBSVM快两个数量级,比GPU基线版本快5倍,并且训练出的模型准确率与LIBSVM相同。ThunderSVM支持LIBSVM的所有功能,包括分类(SVC),回归(SVR)和单类别SVM,并且跟LIBSVM有着相同的命令行接口。ThunderSVM还支持多种语言的接口,包括Python、MATLAB和R。目前,ThunderSVM已在最大的开源代码托管网站上发布(地址 https://github.com/Xtra-Computing/ThunderSVM)。截至 2019 年 4 月,ThunderSVM已经吸引了 900多个星标和130多个克隆,得到了研究者的广泛欢迎。
其他文献
石墨烯具有优异的电学、光学性能,这使得其在光电器件方面有很大的应用潜力,有必要对化学气相沉积法制备石墨烯薄膜和大面积单晶进行研究。在应用于器件时,石墨烯通常需要由
粒子群优化算法作为群体智能算法中的重要组成,在人工智能领域上大放异彩,成为世界各国算法研究者研究的热点问题。因其参数少、表达简单、易于实现、高效等优点已经应用在许
黄蜀葵花为锦葵科秋葵属植物黄蜀葵Abelmoschus manihot(L.)Medic的干燥花冠,始载于《嘉祐本草》,气微香,味甘甜。黄葵胶囊是以黄蜀葵花为原料而制成的单方制剂,具有减轻肾小
教师话语是教师进行课堂教学的语言,同时也是学生学习外语时课堂内容输入的重要媒介,教师话语质量直接决定学生的语言输出质量和课堂教学的成效。在英语课堂上,教师如何运用语言来达到有效和高质量的提问,如何通过语言实现交互作用,从而调整课堂进程,并对学生回答进行有效合理的反馈等已成为值得思考的问题。在《普通高中英语课程标准(实验)》(2003)实施十多年来,随着教学新观念的不断传播,对课堂教师话语的深入研究
领域自适应作为迁移学习的主要研究分支,能够帮助分类模型从源领域的数据中提取知识,并在有不同分布的目标领域中完成目标任务的预测。而当前随着互联网技术的发展,丰富的数据来源带来了海量的数据,这为传统机器学习模型带来了帮助,也造成了阻碍。这种阻碍主要是数据的多样化造成了数据领域之间分布不同,从而影响了机器学习模型的效果,而领域自适应方法的研究,正是为了普遍性地解决或减小这种阻碍。在以往的领域自适应方法中
在不可再生能源不断消耗的大背景下,探索可替代的再生清洁能源成为能源发展的必经之路。油脂是一类重要的可再生资源,能够通过多种方法转化为适宜碳链长度的生物基燃料油。催化裂化法是制备生物基燃料油研究的主要方向,该方法将油脂在催化剂的作用下经过高温反应,转化为更有经济价值的烃类物质。本文以氧化钙为主要研究对象,首先探索其催化裂化小桐子油制备生物基燃料油的最优工艺条件,然后通过氧化钙负载硝酸铝解决其成型问题
近年来,随着网络技术的进步,互联网的发展以及网络用户数量的增加,网络数据量呈现指数级增长。虽然大量的数据是有价值的,并且其中大部分数据是文本文档,但是,除非以适当的方式组织这些文本信息,否则用户根据其需要选择有意义的文本信息将成为一个新的问题。处理该问题的一个方式是设计处理自动化的文本分类系统,这个过程被称为文本分类(TC)。文本分类通常需要在线组织和管理大量可用的文本文档。文本分类的目标是首先从
目的:研究香薷清暑化湿口服液的质量标准,为申报中药新药提供实验依据。方法:(1)采用薄层色谱鉴别方法对香薷清暑化湿口服液中香薷、葛根、蚕沙、厚朴、陈皮进行鉴别研究,建
结构设计广泛存在于生活中的各个方面,是生产、生活的重要组成部分。传统的结构设计方法利用有限元分析、可靠性分析和经验估算等方法对设计方案进行优化和改进,设计的目的是
超连续谱(Supercontinuum,SC)具有亮度高、频谱宽、相干性好等优良特性,在生物医学、光通信网络、气象探测等诸多领域有广泛的应用前景。光频梳(Optical Frequency Comb,OFC)是由一系列相位相干、间隔均匀的频率分量组成的光谱,由于它的高稳定性在天文、光测量、通信等领域应用广泛。单偏振SC也引起了人们的广泛关注,作为实现单偏振SC的重要介质,保偏光子晶体光纤(Pola