云计算平台上的增量学习研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yd476789385
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自1969年互联网诞生到2011年互联网被广泛应用到社会的各个领域,流经互联网的数据量至少膨胀了200亿倍,并且这些数据每天都会以更快、更大规模的趋势增加。为了将每天产生的新数据纳入到新的学习系统,需要利用增量学习。而如何快速、高效地挖掘蕴含在海量数据中有价值、易理解的知识成为增量式数据挖掘领域面临的新的挑战。近年来,云计算技术的出现为海量数据挖掘技术的发展带来了新的机遇。一方面云计算能够集成广域网上的计算资源,为数据挖掘提供物理基础,另一方面,并行计算技术是云计算的核心技术,借助云计算特有的分布式编程模式MapReduce,程序可以自动地分布到一个由普通机器组成的超大集群上并发执行,初步实现了自动并行执行机制。此外,作为Apache软件基金会组织下的一个极具特色的开源项目,Hadoop可以方便、快速的实现计算机集群。Hadoop的分布式文件系统(HDFS)能将超大规模的数据进行分布式存储,而其自带的MapReduce编程框架可以在HDFS基础上实现快速的并行化计算。因此,面对每天产生的海量的增量数据,设计基于开源云计算环境Hadoop的增量分类算法具有十分重要的意义。要实现基于Hadoop云计算平台的增量学习任务,一个关键的问题就是如何将传统的增量学习算法并行化。本文结合传统增量学习算法自身的特点,在深入分析MapReduce框架机制之后,将模块化的集成学习思想融入增量学习的过程中,设计了两种基于云计算平台的增量分类算法。两种算法的Map阶段都是完成相应基分类器的训练,不同的Map任务可以高度并行化地执行。Reduce阶段根据学习环境中是否有概念漂移现象的产生,分别采用分类器组合方式与分类器选择方式对Map阶段的基分类器进行集成,从而分别实现了无概念漂移和有概念漂移环境中快速、高效的增量式数据挖掘任务。在KDD2010、Hyperplane等数据集上的仿真实验说明了所提算法的正确性与可行性。
其他文献
随着论坛、博客和微博等网络媒体的快速发展,表达人们情感、态度和观点的主观性文本大量出现。文本情感分析,也称意见挖掘,就是对这些主观性信息进行有效地分析和挖掘,并进一
随着数据规模的急速增大,应用种类的极大丰富,个人用户和企业对信息的需求已经远远超过了原有平台的能力。越来越多的应用和平台,不论对企业级还是个人级用户都不堪重负,Hadoop平
特征提取是模式识别中最基本的研究内容之一,可以有效地缓解模式识别领域经常出现的“维数灾难”问题并对识别性能起着重要作用,它在生物特征识别、信息处理、文本分类等领域有
为了解决传统神经网络算法(如BP、RBF算法)中出现的局部极小、收敛速度慢等问题,文献[1]和文献[2]中作者提出了权函数神经网络的概念及其学习算法。权函数神经网络结构简单、
随着传统广播视频和新生网络视频数量的快速增长,如何从浩如烟海的视频中快速有效地检索到用户所需的信息逐渐成为多媒体技术研究领域的重要课题。传统的视频检索方法主要有
从视频和图片中恢复三维信息是计算机视觉领域里的一个基本问题,有着广泛的应用。例如,高质量的深度信息不仅可以直接用来重建场景的三维结构、辅助机器人导航,而且还能帮助
手机短信依靠移动性强、收发便捷、资费低等优势,已逐渐成为人们重要的沟通工具。手机用户数量的不断增加推着短信发送数量呈几何级数上升。垃圾短信的问题也因此突显出来,不
近几年来,随着“云计算”的普及,用户隐私和敏感数据的安全保护成为了各界关注的焦点。当前“云计算”服务提供商都是将用户存储地密文数据解密之后才进行处理,而这一过程将会使
安全是铁路运输永恒的主题,影响列车运行安全最重要的因素之一是轨道状态。而轨道几何不平顺是轨道结构部件综合性能的表现,直接反映了轨道状态的优劣。为了提高铁路运输的安
随着经济社会的快速发展,人们对信息化、智能化的需求日益增加,传统人工监视的方法已经很难满足监控要求,因此智能监控技术应运而生。智能监控是在无人为管理的情况下,利用计算机