论文部分内容阅读
近几年随着移动互联网技术的发展,全球数据量与日俱增,人们已经进入大数据时代。随着大数据而来的信息风暴正在改变着人们的生活方式、工作方式以及思维方式。传统的数据挖掘技术也随着大数据时代的到来面临着巨大的挑战,其中最大的挑战是数据形态的改变,处理的数据形态由传统的静态数据变为海量动态数据。流式数据是大数据中最为典型的一种数据形式,它具有海量性、实时性及时变性等特点,这极大地加大了挖掘算法的复杂度。因此,如何设计出一种能够适应流式数据特点的分类算法,有效的解决流式数据分类面临的问题,并从中挖掘新的知识,已成为学术界研究的热点问题。本文从流式数据的基本特点入手,重点研究了概念漂移流式数据分类并行化的问题。针对概念漂移致分类算法低效、分类精度低等问题,本文从流式数据的基本特点出发,以BP神经网络作为基础分类器,做了以下三个方面的工作:(1)在分析近年来有关概念漂移相关研究成果、特点和产生原因的基础上,给出了概念漂移的基本概念,总结了常用的概念漂移检测方法和处理机制。继而针对流式数据分类的实时性要求,提出了采用欧氏距离判断概念漂移的方法,并给出了概念漂移发生后的分类模型重新训练和更新机制。(2)针对分类器能检测到概念漂移却无法快速更新分类模型的问题,在增量式学习的基础上,提出了一种增量式BP神经网络概念漂移数据流分类算法——IBPNN-CDCA。该模型能在保存先前学习知识的基础上,通过增量式学习动态更新神经元节点间的权值,避免了对分类模型重新训练,从而使得BP神经网络能快速适应流式数据的变化。(3)针对流式数据海量性的特点,研究了使用集群并行化处理流式数据的方法,给出了基于Spark的IBPNN-CDCA并行化算法。该算法可以运用整个集群的计算能力对流式数据进行分类,具有较高的数据吞吐量。总之,本文针对流式数据的海量性、实时性与时变性的特点,利用并行化处理可以提高模型数据吞吐量的优势,分别提出并设计了增量式BP神经网络概念漂移数据流分类算法及其并行化分类算法。算法利用增量式在线学习可以适应时变性的优势,在保证分类准确度的情况下,减少了模型更新的时间消耗,提高了分类效率。实验结果表明,IBPNN-CDCA算法较之传统的BP神经网络分类算法具有更好的抗漂移能力,相对于CVFDT、CDRDT和MSRT等概念漂移分类算法,在分类准确度上也具有一定提升。本文的研究工作为实时分类存在概念漂移的海量流式数据提供了一种新方法,对进一步研究流式数据分类问题具有一定的借鉴价值。