Spark环境下半参数支持向量机的研究与优化

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:applexiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据技术的快速发展带动了海景数据分析处理技术的不断进步,一些在小样本上表现出色的机器学习算法逐步应用到大数据学习场景中。半参数支持向量机是一种兼备参数型与非参数型优势的计算模型,能够很好地控制分类器的复杂性,且具有较高的训练效率,但是在而对大型数据时,其运算时间也相对较长。论文在大数据环境下研究了半参数支持向量机算法,采用Spark计算框架实现并行化研究,并进行优化改进。论文研究了一种采用稀疏贪婪矩阵近似算法作为预定义模型,利用迭代重加权最小二乘过程计算权電的半参数支持向量机算法。针对其在大数据场景中运行速度慢的问题,提出了两种方法来迭代优化该算法的计算效率:(1)提出在Spark计算框架下实现半参数支持向量机并行化的方法提高算法效率,采用Spark RDD技术共享内存,减少网络传输和磁盘读写,利用Cholesky矩阵分解方法将矩阵计算任务分解成一系列可以并行执行的子任务;(2)在并行化半参数支持向量机的基础上,提出采用kmeans算法与稀疏贪婪矩阵近似算法相结合的方式构建半参数支持向量机的预定义模型,利用kmeans算法的聚类中心求解稀疏贪婪矩阵近似算法中的核矩阵,缩减了矩阵的规模和计算量以提高算法的计算效率。实验证明,Spark框架下并行化的半参数支持向量机算法相对于单机算法在计算效率上有明显的提高,维持原始算法分类性能;优化后的并行半参数支持向量机相对于优化前的算法,分类的准确性和AUC值保持原始优势,算法运行时间得到大幅度缩短,同时聚类中心的数目对算法的性能影响较小;通过与BPPGD、P-PackSVM和SVMwithSGD算法进行比较,证明最终优化后的算法在分类准确率、模型AUC值以及训练时间和分类时间上都有明显的优势。
其他文献
<正>1第2轮数学复习重点1.1夯实核心内容数学高考考查的内容十分丰富,第2轮复习应在第1轮复习的基础上,聚焦如下核心内容:导数与函数、不等式,三角函数、三角变换与解三角形,
圜底器和圈足器陶器群是昙石山文化的典型特征。在以釜为代表的圜底器系统下,昙石山遗址墓葬中出土了五件陶鼎。本文通过归纳昙石山遗址陶釜和陶鼎数量的悬殊对比,结合陶鼎对
本文介绍赤峰市红庙子污水处理厂自动化控制系统的软、硬件结构及网络拓扑结构,以及各分控站的功能及应用效果。
近年来,面对我国社会经济和文化发展的新形势,如何适应新的文化要求和推动未来可持续发展,是当下每个史前遗址博物馆从业人员需要思考和研究的。本文从我国史前遗址博物馆当
文章选取江苏民歌《茉莉花》为代表,运用中国自己的音乐分析方法——民族音乐形态学,结合江苏的地理、历史、文化等因素,对长江下游音乐的特色,特别是民歌的交融性特征进行分
青海某磁铁精矿铁品位达65.46%,主要杂质Si O2、Al2O3含量分别为5.77%和2.09%,主要脉石矿物为石英、绿泥石、云母、长石、钛铁矿等,+75μm粒级铁品位仅为45.07%,主要以磁铁矿
<正>发展壮大县域经济,是构建社会主义和谐社会的重要内容。甘肃69个县域的人口占全省的70.26%,但GDP仅占40.74%,财政收入只占16.24%,县域成为全省经济的薄弱环节,属典
文章阅读的模式主要有材料驱动模式、概念驱动模式、交互作用模式.这些阅读模式对英语阅读教学有如下启示:应重视英语词汇教学、丰富学生的词汇知识;丰富学生的生活经验,扩充
<正>7)解析几何与平面几何、平面向量.解析几何的题量在历年高考中通常是"一大一小"或"一大两小".在知识内容上,解答题(大题)常与平面向量、平面几何结合考查,甚至还和函数、
<正> 在肌苷生产中,粗制品和精制品都需低温结晶,一般温度控制在0-5℃.各生产厂家冷结晶方式都不相同.有的用冰块;有的用大型冷藏箱;有的用标准工况冷库,采用墙蒸发排管.这些