大数据环境下的并行支持向量机算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:tzwizj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展以及大数据时代的来临,数据的不断增长和积累使得各个领域都面临着处理海量数据的压力,如何快速有效的从大规模数据中收集有实际意义的信息是当下研究的重要内容。支持向量机作为一种关键的数据挖掘方法,具有完善的理论基础、较强的泛化能力以及全局最优解获取能力,然而其只适用于较小规模的数据集,在处理大数据时会产生巨额的计算复杂度。随着Map Reduce等分布式框架得到广泛应用,通过改进传统的支持向量机算法,并与分布式的计算架构结合成为目前大数据环境下支持向量机算法的研究热点。近年来,大数据环境下的并行支持向量机算法虽然在数据挖掘领域取得了一定的成果,然而大数据环境下的数据具有复杂性且噪音数据较多,再加上支持向量机算法存在局限性,使得大数据环境下的并行支持向量机算法的执行效率和分类准确度较低。为了提高并行支持向量机算法处理大规模数据的能力和分类性能,本文主要从三个方面着手,一是消除噪音数据的干扰,设计合理的噪音过滤策略对原始数据进行预处理,删除大数据环境下的噪音数据;二是从支持向量机算法本身着手,利用信息粒度化的方式筛选类边界样本,快速缩减训练集的规模,提高算法的执行效率;三是提高并行支持向量机模型的稳定性,根据特征的多样性构造特征相似组,训练多个基学习器,从而获得稳定的分类模型,进而提高并行支持向量机算法的整体性能。主要研究工作如下:(1)基于粒度和信息熵的并行支持向量机算法针对大数据环境下并行SVM算法存在噪音数据较敏感、训练样本数据冗余等问题,提出了基于粒度和信息熵的GIESVM-MR(the SVM algorithm by using granularity and information entropy based on Map Reduce)算法。该算法首先提出了噪音清除策略(noise cleaning,NC)对每个特征属性的重要程度进行评价,获得样本与类别之间的相关度,以达到识别和删除噪音数据的目的;其次提出了基于粒度的数据压缩策略(Data Compression based on Granulation,GDC),通过筛选信息粒的方式保留类边界样本删除非支持向量,得到规模较小的数据集,从而解决了大数据环境下训练样本数据冗余问题;最后结合Bagging的思想和Map Reduce计算模型并行化训练支持向量机,生成最终的分类模型。实验表明,GIESVM-MR算法的分类效果更佳,且在大规模的数据集下算法的执行效率更高。(2)基于互信息和AFSA的并行支持向量机算法针对大数据环境下的并行SVM算法处理高维数据存在核灾难风险、参数选取困难以及模型抖动较大等缺陷进行了研究,提出了一种基于互信息和AFSA的并行支持向量机算法MIAFSA-PSVM(Parallel SVM algorithm using mutual information and artificial fish swarm algorithm based on Map Reduce)。该算法首先提出CPS(Characteristic pruning strategy)策略来度量特征与类别之间的相关性,过滤数据集中与模型训练无关的特征,避免了核灾难问题的出现;然后提出基于AVS(Adaptive visual and step size)策略和改进适应度函数的人工鱼群优化算法IAFSA(Improved artificial fish swarm algorithm),并根据IAFSA优化SVM,获得最优参数和特征子集,克服了支持向量机参数选取困难的问题;最后提出CDS(Characteristic diversity strategy)策略,利用特征相似性生成多个特征相似组,并结合Map Reduce计算模型和集成学习的思想并行训练多个基分类器组生成一个强分类器,降低了模型的抖动。实验结果表明,MIAFSA-PSVM算法的分类效果更佳,且处理大数据下的高维数据具有更高的执行效率。
其他文献
室内火灾复杂多变,在应对完全未知的复杂室内环境时,传统人工势场法因为自身缺陷很难成功完成路径规划的任务。近年来,深度学习和强化学习在不断的向前发展,用深度强化学习的方法来实现智能体路径规划任务一直是前沿热点研究。传统的人工势场法应用到复杂的、未知的环境时,会因为目标不可达或局部极值点等原因导致寻路失败。而深度强化学习是通过让智能体在不断“犯错”的过程中,学习到相关躲避障碍物以及寻找目标点的策略,最
在智能化时代背景下,随着智能化的发展,机械手搭载视觉系统就相当于让机械手拥有了“眼睛”,促进工业制造更加智能化、柔性化。工业现场经常需要完成对无序堆叠零件定位的工作,由于单目视觉不能较好的解决这个问题,因此需要依靠人工或者振动机构将无序堆叠零件平整放置,然后利用单目视觉进行后续操作,影响了生产效率,增加了制造成本。为提高企业的生产效率,促进自动化的进一步发展,本论文针对无序堆叠问题开展了基于双目视
互联网高速发展,使得出现了一大批新型产业,其中电商是收获最大的产业。电商通过整合和分析数据,提供个性化的推荐服务给消费者,其新颖、便捷等特点吸引了大量的消费者。然而实体零售企业由于自身设备、数据标准不统一或其他原因,无法实现企业间的数据共享,无法优化自身服务,导致无法留住消费者。因此,为了改变实体零售企业存在的困境,需要一个安全共享数据平台。然而传统的大数据交易平台是第三方平台,其存在着成本高、收
随着汽车工业和物联网技术的飞速发展,车载应用与服务日渐丰富给计算资源有限的车辆造成了很大的困扰。针对车联网“低延时、高带宽、高可靠性”的严格要求,将移动边缘计算(Mobile Edge Computing,MEC)技术引入是一个很好的解决方案,MEC将云计算服务下沉至无线网络边缘侧,在车载终端附近能够提供计算服务,从而弥补了云服务器远程传输过程带来的延迟干扰,更容易满足用户服务质量。目前,学术界和
目前,无线传感器网络(Wireless Sensor Networks,WSN)已成为第四次工业革命的技术制高点,是由大量的传感器节点等通过自有方式构成的一种无线通信系统。这种网络可以利用传感器节点来监测处于各种地理区域中的相关物理或环境信息,将对人类的生产生活方式带来巨大变革。然而,其运行分布恶劣动态性强的广域环境,存在各类突出问题,如断续链接、网络效率低下等,使得WSN的应用环境及相关条件受到
随着现代生产向自动化、连续化、智能化和高效化发展,相应的生产设备需安全可靠且连续运转,其中设备润滑是影响生产设备安全可靠及连续运转的关键因素之一。设备的传统润滑方式是由人工定时巡检与加注润滑剂完成,不能满足现代生产的“四化”发展要求。随着计算机技术的发展,设备润滑也朝着自动化方向发展。目前设备的自动润滑有集中式和分布式两种形式,集中式自动润滑适合于润滑点位置相对集中且润滑要求相近的设备润滑场合,该
图像增强技术是图像处理领域的一种关键技术,已经渗透到了人们生活的方方面面。其中,颜色传递作为图像增强的一种重要手段近年来受到研究人员的重点关注。颜色传递技术能够将参考图像的颜色特征传递至内容图像上,使结果图像在拥有内容图像结构特征的同时又具备参考图像的颜色特征,从而可以较好地提高图像的艺术风格和视觉效果。传统的颜色传递方法往往存在细节模糊、噪声增强、层次感欠缺以及不能很好地保持参考图像的颜色特征等
第三次信息产业革命伴随着物联网的发展而兴起,在传感器和嵌入式两个技术的共同支持下,以其易于结合、容错率高、易于部署、易于增减传感器节点、执行效率和速率高等技术优势,已经应用在智能家居等诸多领域。本文将物联网引入家庭内部,设计了一个集数据采集传输、语音呼叫、移动智能监视与一体的家庭物联网系统。基于物联网技术的发展,以设计并完善家庭内部物联网系统为根本目标,本文解释了家庭物联网监控系统所涉及的基础理论
近年来,随着比特币的兴起,区块链技术逐渐走进大家的视野,其技术特性可以解决一些社会痛点问题,给人们带来很多便利。另一方面区块链技术与其他技术相结合,如人工智能、大数据等,为其应用的实现提供了无限可能。作为区块链的关键技术,共识算法保证了区块链应用的无中心化管理以及数据一致性与合法性,然而目前大多数共识算法存在一定的不足。如部分共识协议依赖权益节点,在形成共识过程中,容易产生记账节点选择问题,也易产
随着人工智能领域的发展,语音交互技术逐渐成为人工智能发展的重点研究对象。麦克风阵列技术可以在复杂的声学环境中进行噪声抑制,提高语音质量和可懂度。由于麦克风的数量、体积及运算速度等条件的限制,大多数基于麦克风阵列的语音增强算法不能直接应用于便携式终端设备中。差分麦克风阵列(Differential Microphone Arrays,DMA)因为其具有超强方向性、波束模式频率几乎不变以及体积小的特点