基于分布式计算的SVM算法优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wsndcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术及移动互联网的飞速发展,网络上的数据呈指数型增长,而如何很好的利用这些数据,成为大家关注的焦点,从而促进了数据挖掘的快速发展。而在数据挖掘的领域,支持向量机(Support Vector Machine)是一种比较高效可信的数据分类算法,因其拥有较少的过度拟合、对于特征向量维数灾难影响不明显等优点而被广泛应用。但是传统的SVM本身并不适用于海量数据的处理,当处理海量数据时,其算法的空间和时间复杂度都比较高,导致训练特别慢,提升了训练得到训练模型的代价。为解决这些问题,对传统的SVM算法进行分布式并行化处理是一种有效的方法。本文对SVM算法的分布式并行化进行探讨。经过分析,CascadeSVM作为一种分布式SVM算法,在保证准确率的情况下,能够有效的减少训练时间。但是,本文发现CascadeSVM算法中存在改进的空间,每次迭代的训练层级固定,不能灵活的适应分布式环境。于是在CascadeSVM的基础上提出了一种新型分布式SVM算法。考虑到Hadoop平台是目前最流行的分布式并行计算平台,我们将CascadeSVM和新型分布式SVM算法的思想与Hadoop平台技术相结合,得到基于Hadoop平台的算法实现。为了验证分布式SVM算法能否达到优化的目的,我们搭建了小型的分布式集群,使用标准的covtype.binary数据集作为实验数据集,对传统的单机SVM算法、CascadeSVM及新型分布式SVM算法,主要从训练时间及预测准确率上进行比较。结果表明对于大规模数据,在保证一定的预测准确率的前提下,分布式SVM算法训练效率要明显优于单机SVM,而在分布式算法中,新型分布式SVM算法要略优于CascadeSVM。
其他文献
《蒙古族民间教子习俗探析》一文,由导论、主题三章、结语、参考文献组成。导论,包括国内外学者的蒙古族民间教子习俗研究概述,选题目的和研究方法。第一章,《蒙古族民间教子习俗
研究背景单病例随机对照试验(N-of-1trials),简称为N-of-1试验,是一种基于单个病例进行双盲、随机、多周期二阶段交叉设计的随机对照试验,一般安排两种干预和3个或3个以上周
被高墙隔开的家庭是不完整的家庭,不完整的家庭生活是不健全的生活。从养生的角度,我们去看看生活在社会这一隅的这些人们——
对脑卒中早期康复时间、频率、内容、方式、模式以及影响脑卒中病人接受早期康复的因素进行综述,提出脑卒中发病24h内及早进行适度的康复是安全有效的,早期康复实施内容及方
目的通过横断面调查研究,了解脑卒中患者家庭康复状况,比较不同特征下卒中患者的康复效果。方法采用便利抽样,选取某三甲医院康复医学中心已出院的卒中患者共计234例为研究对
为了继承和发扬陶行知的教育思想:“为社会培养创造性的人才”,对教学提出了新的要求,“教育是知识创新、传播和应用的主要基地”,实施创新教育正如陶行知先生所说的“处处是创造
期刊
证明了k上小范畴(G-范畴)的函子范畴仍为k上小范畴(G-范畴).
期刊
期刊