流式数据的并行分类算法研究

被引量 : 0次 | 上传用户:lb878719
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年随着移动互联网技术的发展,全球数据量与日俱增,人们已经进入大数据时代。随着大数据而来的信息风暴正在改变着人们的生活方式、工作方式以及思维方式。传统的数据挖掘技术也随着大数据时代的到来面临着巨大的挑战,其中最大的挑战是数据形态的改变,处理的数据形态由传统的静态数据变为海量动态数据。流式数据是大数据中最为典型的一种数据形式,它具有海量性、实时性及时变性等特点,这极大地加大了挖掘算法的复杂度。因此,如何设计出一种能够适应流式数据特点的分类算法,有效的解决流式数据分类面临的问题,并从中挖掘新的知识,已成为学术界研究的热点问题。本文从流式数据的基本特点入手,重点研究了概念漂移流式数据分类并行化的问题。针对概念漂移致分类算法低效、分类精度低等问题,本文从流式数据的基本特点出发,以BP神经网络作为基础分类器,做了以下三个方面的工作:(1)在分析近年来有关概念漂移相关研究成果、特点和产生原因的基础上,给出了概念漂移的基本概念,总结了常用的概念漂移检测方法和处理机制。继而针对流式数据分类的实时性要求,提出了采用欧氏距离判断概念漂移的方法,并给出了概念漂移发生后的分类模型重新训练和更新机制。(2)针对分类器能检测到概念漂移却无法快速更新分类模型的问题,在增量式学习的基础上,提出了一种增量式BP神经网络概念漂移数据流分类算法——IBPNN-CDCA。该模型能在保存先前学习知识的基础上,通过增量式学习动态更新神经元节点间的权值,避免了对分类模型重新训练,从而使得BP神经网络能快速适应流式数据的变化。(3)针对流式数据海量性的特点,研究了使用集群并行化处理流式数据的方法,给出了基于Spark的IBPNN-CDCA并行化算法。该算法可以运用整个集群的计算能力对流式数据进行分类,具有较高的数据吞吐量。总之,本文针对流式数据的海量性、实时性与时变性的特点,利用并行化处理可以提高模型数据吞吐量的优势,分别提出并设计了增量式BP神经网络概念漂移数据流分类算法及其并行化分类算法。算法利用增量式在线学习可以适应时变性的优势,在保证分类准确度的情况下,减少了模型更新的时间消耗,提高了分类效率。实验结果表明,IBPNN-CDCA算法较之传统的BP神经网络分类算法具有更好的抗漂移能力,相对于CVFDT、CDRDT和MSRT等概念漂移分类算法,在分类准确度上也具有一定提升。本文的研究工作为实时分类存在概念漂移的海量流式数据提供了一种新方法,对进一步研究流式数据分类问题具有一定的借鉴价值。
其他文献
目的:本研究以CMBs作为生物学标志物研究糖尿病脑病的微血管病变,对于CMBs情况进行分析,并探讨其在糖尿病认知功能障碍发生中的影响。方法:收集南华大学附属第一医院内分泌科
<正>目前,世界上许多国家实施岗位管理时将护理人员分成不同的级别,明确划分各级的岗位职责[1]。我国2010年全国卫生工作会议指出:要探索护士分层使用,建立能级管理模式[2]。
催化在人类化学史上一直扮演着极其重要的角色。当前工业催化中使用的催化剂多为金属或金属氧化物材料。金属材料价格相对昂贵,在反应过程中容易溶出而危害环境。如能用非金
建国初期是中国社会大变动的重要时期,承担着由新民主主义社会向社会主义社会过渡的历史重任。农民是中国共产党最大的群众基础,切实的农民教育是获得农民政治认同的重要方法
磷是植物生长和发育的必需营养元素。土壤中的磷酸盐离子易与金属离子结合形成难以溶解的化合物,无法被植物直接吸收利用,因此土壤中的有效磷缺乏一直是农业生产中限制作物产
目前,国内对新加坡管理浮动汇率制度的研究以定性讨论为主。本文从定量角度出发,研究新加坡管理浮动汇率制的运作,并以经济特征相似、实行货币局制度(典型的固定汇率制)的香
信贷组合积极管理是基于现代资产组合理论,通过优化信贷组合,在银行风险容忍度以内追求组合风险回报率最大化的新型信贷管理模式。本文分析了信贷管理传统模式的局限性,探讨
喷溅是炼钢行业久治不愈的顽疾,威胁工人生命安全,破坏生产环境并造成严重经济损失。作为国家支柱行业,钢铁生产成本居高不下、产能过剩、高污染、高耗能已成为亟待整治的现
经济危机使全球服务外包产业深受影响。规模最大、发展最快的金融服务外包领域出现巨额合同交易显著减少、辅助性后台外包需求加快释放、国际金融机构海外自营中心外部化以及
<正> 一、股票和股份公司 日本的企业,可以分为私营企业和公营企业两大类。其中私营企业占99%。私营企业中,除少量的个人企业、合名企业和合资企业等外,绝大部分是股份有限公