大数据环境下的并行SVM算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:ma_1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机网络技术、数据存储技术的迅猛发展,各行业数据量都呈现爆发式的增长,我们进入了大数据时代。如何高效处理这些海量数据,并从中挖掘潜在价值信息,是近年来一直热议的话题,而数据挖掘技术成为人们探讨解决此话题的主流方向。分类算法是常用的数据挖掘技术之一,在分类算法中,支持向量机(Support Vector Machine,SVM)由于具有良好的泛化能力、很好的克服维数灾难以及非线性解决问题的能力,成为了热门研究。但传统的SVM只适用于解决小样本问题,在处理大数据集时,其计算复杂度是呈指数级增长的,而并行化技术的出现解决了此难题。因此,研究并行化SVM有重要价值和意义。目前,已经提出的很多并行SVM算法都一定程度的提高了算法效能,但是依然有以下几个主要缺点:不能大幅度减少冗余数据给算法带来的计算复杂度过高的不利影响;不能够快速寻找到算法的最优参数;在并行化支持向量机时,不能有效解决负载不均衡;不能高效训练SVM多分类模型。基于此,主要做了以下工作:(1)一种基于聚类算法和鲸鱼优化算法的并行支持向量机算法——MR-KWSVM(Support Vector Machine Algorithm using K-means Clustering and Whale Optimization Algorithm based on Map Reduce)。该算法首先提出KF(K-means and Fisher,KF)策略来删减冗余数据,利用删减冗余数据后的数据集训练SVM,降低了SVM对冗余数据的敏感性;其次提出了基于非线性收敛因子和自适应惯性权重的鲸鱼智能优化算法(The Improved Whale Optimization Algorithm based on Nonlinear convergence factor and Self-Adaptive Inertia Weight,IW-BNAW),利用“IW-BNAW”算法获取SVM的最优参数,提高支持向量机的参数寻优能力;最后在利用Map Reduce构造并行SVM过程中,提出时间反馈策略(Time Feedback Strategy,TFB)用于reduce节点的负载调度,提高集群的并行效率,实现高并行的SVM。实验证明了MR-KWSVM良好的算法性能。(2)一种基于K-means和平衡二叉树的并行多分类SVM算法——PKBBTSVM(Parallel Multi-Class SVM Algorithm Based on K-means and Balanced Binary Tree)。该算法首先根据多类别数据集中冗余数据的分布特点提出DKR策略(Data Reduction Strategy Based on K-means and Sample Redundancy,DKR),该策略加快了多分类SVM的训练速度;其次提出了为构建多分类SVM的子分类器,合理划分数据集的BSD策略(Non-leaf node data partitioning strategy based on balanced binary tree and sample Divisibility,BSD),最后在Map Reduce上实现多分类SVM的并行化。实验证明了该算法在处理多分类数据集时有更优的表现。
其他文献
随着近些年来互联网技术的蓬勃发展,人们的物质生活得到了较大的改善。然而,现实中伴随科技发展的是诸多的信息安全问题,譬如,信息在传输过程中被盗取、篡改,这已经成为通信领域内的热点问题。现阶段经典的公钥密码算法受限于算法复杂度高等缺陷,难以满足通信环境日益复杂的需要,针对这一问题新一代抗量子计算机算法应运而生。为了克服传统算法密钥存储量大等问题,文中在总结了现阶段基于线性码的McEliece公钥密码方
学位
随着计算机的普及和数字信息处理技术的高速发展,人们对图像质量的要求不断提高。数字图像因其记录快捷、信息量大及传输便利等优点成为计算机时代最重要的信息载体。然而,数字图像在获取过程中常常受到散射介质(如雾、霾及水体等)的影响,使得到的图像不同程度地存在细节丢失、颜色失真、对比度降低等问题,从而造成图像的降质,如此将影响特征提取、目标识别和分类等后续图像处理操作。为此,文中以降质图像中常见的含雾图像和
学位
图像增强是图像处理领域的重要分支,其作用是根据用户需求有针对性地突出或保留图像的特征信息,以达到提升图像质量的目的。随着计算机视觉技术的飞速发展和人们对高质量图像需求的不断提高,图像增强技术涉及的研究领域日益广泛。当前阶段,低能见度图像增强是图像增强技术中的研究热点,受到了国内外众多科研工作者的关注。为此,文中在借鉴了图像增强领域的相关理论和研究成果后,对低能见度图像中的大气图像(含雾图像)和水下
学位
最优化问题一直是计算机工程领域内的关键任务。目前,越来越多复杂的优化问题已不适于使用传统优化技术求解。智能优化算法以其寻优能力强、灵活性高、鲁棒性强等优点被广泛的用于求解最优化问题。研究者已经提出了诸多经典的高性能的智能优化算法,比如粒子群算法、遗传算法、鲸鱼算法等。阴阳对优化(YYPO)算法是最近提出的一种高性能的轻量级智能优化算法,但其在优化过程中存在容易陷入局部最优、搜索精度不够、初期分布影
学位
近年来,由于人工智能在众多的场景中为人们提供了便捷的服务,因此人工智能的发展和使用受到了更多人的青睐。群智能作为人工智能的一种,因其不依赖于训练集的特点,而成为人工智能研究中不可或缺的一部分。随着NP-hard难题的日益突出,群体智能的研究越发受到关注。NP-hard难题在现实应用领域中很难找到全局最优值。此类问题中可能存在的潜在解决方案的数量往往是无限的。在这种情况下,在一定的时间范围内找到有效
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种对地观测系统,能够快速获取目标信息并对目标进行高分辨率成像,且具有全天候、全天时工作能力,在军事和民用等领域得到了广泛的应用。作为SAR领域的研究热点之一,SAR图像解译技术能够完成SAR图像中目标的检测、识别、分类和分割等任务。近年来,随着深度学习的迅速发展,光学图像领域的图像语义分割技术已取得显著成绩,该技术也推动了
学位
随着网络技术飞速的发展,网络资源总量呈指数型增长,信息过载问题也愈演愈烈,面对如此海量且繁杂的数据,用户很难快速找出需要的信息,推荐系统能够有效缓解这一问题。个性化推荐系统通过各种数据挖掘技术解析用户的日志信息,给用户推送其偏爱的信息。推荐领域里推荐算法设计的好坏很大程度上决定了推荐性能的高低和用户的使用感受,因此对推荐算法的研究与改进有重要的意义。在多种个性化推荐算法里,二部图网络结构的推荐算法
学位
目前,心血管疾病是我国患病人数最多的一种病症,其死亡率在全国居民患病类型中处于首位。心音信号中含有表征心脏功能的特征信息,可用于心血管疾病的预防与诊断。本文从原始心音信号进行分析,利用心音信号的时频特征,以心音降噪与心音分类为主要内容进行研究,主要工作与贡献如下。(1)在心音降噪方面提出了一种基于CEEMDAN与最优小波的心音降噪方法。针对小波去噪中高频有效信息丢失问题,引入了CEEMDAN自适应
学位
高原地区气候恶劣、高寒、缺氧,隧道施工安全风险大,施工安全事故发生率高,易造成巨大经济损失和严重人员伤亡。为了避免高原隧道项目建设施工安全事故的发生,确保施工作业安全,对高原隧道项目建设阶段存在的安全风险问题进行评价及管理研究迫在眉睫。鉴于目前尚无全面、科学、可行的高原隧道施工安全风险评价体系,亦无具有较强科学性和针对性的高原隧道施工安全风险控制方法,文章通过对高原隧道施工安全风险评价指标体系及模
学位
近年来,新型二维纳米材料在多个领域展现出越来越大的应用潜力。石墨烯因拥有很高的载流子转移速率、优异的导热导电等特性,而深受广大研究学者的青睐;但由于石墨烯的光吸收率较低且禁带宽度为零,这限制了其在光电子器件领域的进一步应用。与石墨烯相比,二维过渡金属硫族化合物(TMDCs)拥有较宽的带隙,在实验和理论研究上都表现出了良好的物理特性。二硒化钨(WSe2)作为TMDCs中带隙相对较大的重要成员,其是首
学位