基于Hadoop云平台的分布式支持向量机研究

被引量 : 13次 | 上传用户:Dean_NEU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是Vapnik等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的VC维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。然而,随着数据集规模的逐渐增大,SVM算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。云计算的提出为海量数据挖掘技术的发展带来了曙光。凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。本文从Hadoop云平台的分布式文件系统(HadoopDistributed File System,HDFS)和分布式编程框架MapReduce两个方面对当前最流行的开源云计算平台Hadoop进行了阐述,同时,对MapReduce计算框架的内部运行机制进行了深入剖析,并在Linux环境下基于Hadoop-1.0.0版本搭建了完全分布式的Hadoop云平台。Hadoop云平台依靠HDFS实现了对大规模数据集的分块存储。本文通过读取hdfs-site.xml配置文件中的dfs.block.size属性,将数据集按照容量大小进行了划分,然后,对分配在datanode节点上的每个block采用基于MapReduce编程框架的并行SVM算法进行并行化训练。传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行SVM算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统SVM算法相比,采用遗传算法进行参数组合优化的SVM算法的预测精度得到了比较显著的提高。在UCI标准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能进行了的一系列实验分析,结果表明,并行化的SVM算法与传统的SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。同时,本文使用加速比分析了并行算法所需的训练时间与Hadoop集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。
其他文献
作为警察权力中重要的权力,搜查与扣押权长期以来一直没有得到足够的重视。然而,作为强制刑事措施,这两项制度却是直接关涉公民人身和财产的行为。在人权和财产权写入宪法,成为基
目的评价在血液透析患者内瘘护理中应用分阶段匹配护理策略的效果。方法选取2017年01月~2018年06月我院收治的血液透析内瘘患者86例作为研究对象,均建立了动静脉内瘘,应用计
场域理论、反思社会学是布迪厄实践理论的重要内容之一。布迪厄的实践理论不仅有助于思考社会学,也能够对人类学的研究有所裨益。从布迪厄的实践理论出发,人类学的研究应该获
改革开放以来,现代化和城市化进程发展加快,加上农村实行的经济体制改革,从农村往城镇迁移和流动的农村剩余劳动力逐年增加,我国的流动人口规模特别是外出务工人员规模迅猛增
传统观点认为,不论采取何种翻译策略,翻译的理想境界是忠实或等值。然而,在商务口译中,会经常出现译者时而“忠实”时而“叛逆”原文的现象,即存在看似“悖反”的口译策略。
通过对湖南某锂辉石选矿厂厂址方案优化选择过程中遇到的问题,结合选矿厂厂址选择原则,确定适合矿山近期及远期发展需要的选矿厂厂址。
分析激光惯组软件研制现状,对照企业软件研制中出现的问题,提出确定以"软件复用技术"和"软件构件化开发方法 "作为激光惯组软件"三化"的具体实现形式,建立激光惯组软件构件库
目的:急性淋巴细胞性白血病(ALL)是一类造血干细胞来源的恶性克隆性疾病,近年来,靶向杀伤治疗已成为ALL治疗的发展趋势,分析ALL发生机制、寻找新的治疗靶点成为研究热点。溶质
合作共赢的和谐劳动关系对于企业发展、劳动者权益保护及社会稳定而言,至关重要,堪称整个社会发展的晴雨表。改革开放30多年来,中国的非公企业获得了巨大的发展,但是与此不相
通过对基于相关类算法的TDOA系统时差测试技术理论推导,指出该技术成立的前提条件为针对平稳信号,对于非平稳信号将会引入系统误差;数学模型计算表明,在低通带限平坦谱条件下,相关