基于Spark的并行数据挖掘研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jacklong1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前大数据时代,网络技术和硬件设备的飞速发展造成指数性的数据增长。尽管在小数据集上,传统的数据挖掘技术已经得到了充分的发展和利用,证明了其巨大的价值与意义。但是在海量数据的挑战下,数据挖掘领域仍然存在着算法执行效率低、算法并行优化不够以及数据挖掘平台易用性差等问题。当前主流的分布式计算框架,主要有Hadoop、Storm和Spark。其中Storm为流式处理引擎,用于解决数据流的实时计算问题。Hadoop属于批处理计算框架,应用于海量数据的存储与计算。其中HDFS组件面向大数据存储,具有高可靠、高容错和高扩展等优点,MapReduce模型则极大地简化了并行编程工作。而Spark是新一代的基于内存的并行计算框架,其提出的RDD模型更加简单,在执行效率上也远胜于Hadoop。本文基于上述背景,调研了当前并行数据挖掘领域发展现状,主要针对并行数据挖掘算法和并行数据挖掘工具进行研究。基于Spark作为编程模型和处理引擎,本文主要完成了以下工作:(1)KMeans++算法优化及并行化:研究了聚类问题中的典型算法KMeans及KMeans++的原理和实现方式。分析了算法优劣,并针对KMeans++算法初始化聚类中心可能不够理想的问题,基于动态调整聚类中心的思想,对KMeans++算法进行了改进,并且实现了改进后算法的并行化。实验中相较于Spark MLlib中的KMeans++算法,改进算法在k值较大的情况下误差平方和降低了4%以上。(2)支持向量机(Support Vector Machine,SVM)并行算法优化。调研了分类问题及线性SVM算法的原理,以及采用小批量随机梯度下降法和自适应梯度下降法求解SVM问题的过程。研究了自适应梯度下降法求解SVM的常规并行算法的实现方式,并基于延迟更新思想对常规并行SVM算法进行了迭代优化。优化后算法与Spark中的SVM算法相比,在不损失较高正确率的前提下,缩短了算法的执行时间。(3)为验证和应用上述优化算法,本文基于Hadoop和Spark设计并实现了一种分布式的并行数据挖掘调度框架,可以满足用户对于大数据集的挖掘分析需求。调度系统实现了常见的分类、预测、聚类以及数据预处理等数据挖掘算法,并可以通过可视化拖拽算法程序来完成数据挖掘建模。
其他文献
目的:通过对市场上地龙及其混伪品进行微性状区分,结合灰分、重金属及浸出物的检测,研究和规范市场上地龙的品种,为地龙的鉴别提供依据,提高市场上地龙药材的品质。方法:通过
随着技术与观念的更新,地图在社会各界中的作用日益凸现,并由此产生了对电子地图的大量需求。这种需求一方面推动了地图学的发展,另一方面也提出了挑战:地图学界必须制作出符合用
大数据自产生以来给全球带来了巨大的冲击和变化,它的出现对各个行业都有着深远的影响,档案界也不例外。在大数据环境下,综合档案服务工作面临着巨大的发展机遇,大数据技术极
高职院校"双师素质"翻译教师队伍建设应遵循激励原则、优化原则、理论与实践相结合的原则。高职院校"双师素质"翻译教师队伍建设应采取以下措施:制定有效的评价和约束机制,提
行政领导不重视和思想政治工作者不作为是导致国有建筑施工企业工程项目中思想政治工作被边缘化、弱化的主要原因。加强工程项目思想政治工作,应从思想上、能力上、制度上、
剩余污泥是城镇污水生物处理过程产生的固体废弃物,充分利用其中的蛋白资源提取污泥蛋白可同时实现污泥减量化、资源化。污泥提取蛋白属可再生资源,污泥提取蛋白可用于泡沫灭
由于环境的恶化,人们生活方式的改变,恶性肿瘤的发病率有所升高,发病年龄趋于下降。肺癌是人类最常见的恶性肿瘤之一,近年来在我国发病率、死亡率均呈上升趋势,上升幅度居于首位。
今年的教师节,马云公布传承计划,他决定在明年的9月10号不再执掌阿里巴巴,由阿里巴巴现CEO张勇接任。张勇从淘宝网财务总监到阿里巴巴CEO,再到董事会主席,堪称CFO的华丽转型
对川东农场水稻的落粒性进行调查研究,结果表明:柔小町、淮稻9号和盐粳10号无落粒现象;武育粳3号、淮稻5号、连粳6号、泗稻10号和淮稻10号无自然落粒和碰撞落粒,仅有拍打掉粒,
空中加油技术在现代航空领域发挥着重要作用。本文对空中加油技术中的软式空中加油作了细致的研究,对软式空中加油的软管-锥套系统建模,研究了收放、自由拖曳、对接阶段的软