云计算环境下的并行SVM算法研究

来源 :南京师范大学 | 被引量 : 2次 | 上传用户:ZYXN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是机器学习的主要研究内容,支持向量机(Support Vector Machine,SVM)作为主流的分类方法之一,在软件模块缺陷检测、图像识别等领域取得了广泛的应用,倍受研究者的关注。然而,经典的串行SVM主要针对小规模数据,面对大规模数据存在效率低的不足。为此,设计适用于大规模海量数据的并行SVM算法成了关键任务。目前,经典的并行SVM的研究主要集中在数据层面,即在原始数据集的多个子数据集上并行训练支持向量机,进而通过合并得到最终分类结果。相对于面向数据层面的并行SVM而言,在求解算法上进行并行化的SVM还不多见,且在SVM模型中考虑类分布信息的研究工作也比较少。为此,本文在MapReduce模型框架下,对支持向量机的次梯度投影算法(Pegasos)的并行化进行了深入的研究,并在软件模块缺陷数据集上进行有效地实验验证。论文的主要工作如下:1.提出了并行SVM的随机次梯度投影算法(PPegasos)。PPegasos算法将SVM随机次梯度投影算法中的求次梯度和投影的步骤进行并行,并运用基于MapReduce并行框架的云计算平台Hadoop进行了算法的实现。在软件模块缺陷数据集CM1和PC1上对PPegasos算法进行了实验验证。实验表明,PPegasos算法是有效可行的,适用于面向大规模数据的分类。2.提出了并行结构化SVM的随机次梯度投影算法(PSPegasos)。PSPegasos算法将样本的结构信息融入到SVM随机次梯度投影算法中,在MapReduce框架下进行了并行化实现。该算法中分别考虑了整体、类和聚类三种不同粒度下的样本的结构信息。在软件模块缺陷数据集CM1和PC1上对PSPegasos算法进行了实验验证。实验表明,结构化信息的嵌入使寻找到的最终分类超平面会更加符合数据的分布方向,有效提高分类器的预测精度。3.提出了一种基于聚类的欠抽样的并行结构化SVM随机次梯度投影集成算法(EPSPegasos)。EPSPegasos算法主要针对软件模块缺陷检测这一类不平衡问题而设计的。基于聚类的欠抽样,一定程度上保留了样本的分布信息,克服欠采样所造成的信息的丢失,可防止过抽样带来的样本规模过大问题。借助MapReduce并行框架,训练多个基分类器,集成得到最终的分类结果。在软件模块缺陷数据集CM1和PC1上对EPSPegasos算法进行了实验验证。实验表明,EPSPegasos算法能够获得比单个分类器更好的分类效果。
其他文献
合成孔径雷达(SAR)具有全天时、全天候、强透射等优点,被广泛应用于军事和民用领域。然而,由SAR成像原理所引起的相干斑噪声使得SAR图像的处理比传统光学图像更加困难。本文就S
骨髓是人体的主要造血器官,其细胞种类繁多。它的分类计数可以诊断和鉴别出各种血液系统疾病。显微镜检查是其主要诊断手段,但人工操作工作繁重且掺杂过多的主观因素。计算机分
生产生活中信息量的迅速增长,使得人们对数据的需求不仅仅局限于本地数据源的数据,对于异地数据的需求量也与日俱增。异地数据的异构性使企业、部门和机构间的数据访问存在诸多
随着互联网的普及和电子商务的发展,推荐系统逐渐成为电子商务IT技术的一个重要研究内容,越来越多地得到研究者的关注。目前,几乎所有大型的电子商务系统,如Amazon,CDNOW,eBay,当当
在复杂的比赛环境下,由多个机器人构成的一个球队与对手球队进行对抗比赛。环境的动态性及对手不可预测的干扰,对于系统实时决策和机器人运动控制有着非常高的要求。因此,机器人
由于处理复杂事务的能力,工作流系统得到了日益广泛的应用。然而,在Internet和电子商务快速发展的今天,工作流系统还存在着很多不足。首先,工作流系统不能很好的支持Internet交互
蚁群优化(Ant Colony Optimization,简称ACO)是一种新兴的启发式模拟进化算法.人们对蚁群算法做了很多改进和扩展,在很多领域获得了广泛应用. 但是蚁群算法仍然存在一些问
随着我国信息技术的飞速发展,电子商务在企业的应用逐步深入,从单一的信息发布向更高层次的整合应用发展,推动了企业采购模式的转变,形成网络采购(Electronic Procurement)的
近年来随着Intemet与嵌入式系统的迅速发展,网络化的嵌入式产品已经成为IE产业的最大增长点,将嵌入式设备接入Intemet将成为一种必然,把Web服务器应用到嵌入式设备已经是可以实
无线传感器网络(WSN)是最近几年发展起来的一项新技术,它最早用于军事领域,如今的低成本传感器节点己经可以应用于空间探测、辐射检测、洪灾预警、农田管理、生物群落观测、机