基于Spark的流数据分类挖掘算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:emajor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,面对实时到达、连续、无限的流数据,传统的数据挖掘算法已难以满足挖掘需求,流数据挖掘算法成为了热点研究课题。本文把面向流数据的分类挖掘算法作为重点研究对象,以提高流数据分类挖掘效率和性能为目标,不仅改进了已有的分类算法,而且将改进算法部署到大数据处理平台Spark上并行化实现。为了提高流数据分类挖掘效率,将概念自适应快速决策树算法CVFDT进行了属性间的并行化,并借助Spark的流计算机制,设计了CVFDT基于Spark的并行化实现方案。在Spark平台上实施该方案的结果表明:在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力。为了提高CVFDT算法在处理含有连续属性的平稳流数据方面的能力,对CVFDT算法做了两方面的改进:使用多元Delta方法代替Hoeffding边界计算和设计了更为高效准确的连续属性分割与权衡重计算方法;从而形成了面向连续属性的CVFDT算法,命名为C-CVFDT。并且进一步设计了C-CVFDT基于Spark的并行化实现方案。基于该方案的算法实现和测试实验结果表明,C-CVFDT算法对包含连续属性的流数据样本有更好的预测精度和分类效率。针对CVFDT算法不能有效处理不稳定流数据的问题,利用集成分类器思想,集成CVFDT算法基础分类器和朴素贝叶斯算法基础分类器,设计了一种面向不稳定流数据的概念自适应的集成分类算法ECA(Ensemble Classification Algorithm)。其核心思想是:使用CVFDT分类方法和朴素贝叶斯分类方法进行学习,形成集成分类器,在出现概念漂移使分类器准确率下降到设定的临界值时,使用新的基分类器来优化集成分类器以适应新的流数据。实验结果表明ECA算法适应概念漂移的能力较强。本文研究的流分类算法及其基于Spark的并行化实现方案能适应海量流数据的无限性、快速性和实时性,研究内容较为先进,且研究成果具有一定的理论价值和较好的实用性。
其他文献
项目模拟股份制的实质是通过改革企业分配制度激发全员积极性,通过超利分红,实现员工共同富裕。通过这几年的实践,我们总结了24个字的本质特征,也是实施的指导原则:即企业经
本文系陈兴良教授于2016年9月26日在浙江杭州召开的罪犯教育管理工作科学化理论研讨会上的点评发言。该理论研讨会由司法部预防犯罪研究所主办、浙江警官职业学院承办。来自
分析头孢呋辛钠注射液不良反应发生的原因,探讨其防治办法。
目的:通过对不同方式治疗椎体转移瘤的研究,分析调强放疗与手术治疗椎体转移瘤的疗效。方法回顾性分析我院治疗的75例单椎体转移瘤患者,按治疗方式分为单纯手术组,单纯放疗组,手术
利用空间目标雷达散射截面(Radar Cross Section, RCS)序列开展空间目标结构识别是空间态势感知的重要组成部分。文章针对RCS序列受目标物理特性、姿态特性影响大,序列信号非
随着市场经济的发展,人们观念的改变,医院的人际关系发生了微妙的变化,新时期医院如何营造一个良好的人际关系,是一个值得研究的课题.人际信任是人们对人际关系中竞争风险的
研究多晶硅光伏发电系统在整个生命周期之内的环境排放能源消耗情况,使用了代表中国生产技术水平的清单数据,对生命周期各阶段,尤其是生产制造和废弃处理阶段进行详细建模,分
<正> 特拉弗斯说过:“教学是一种独具特色的表演艺术。”可见,备课是教学艺术的一个重要组成部分。因为它是“教学过程的第一个重要环节,是搞好课堂教学、提高教学质量的先决
随着网络团购的日益兴盛,因团购产生的合同纠纷亦日益增多。目前网络交易有《网络商品交易及有关服务行为管理暂行办法》、《电子商务信用认证规则》、《互联网信息服务管理