论文部分内容阅读
数据流分类技术是数据流挖掘中的重要组成部分。然而在许多实际应用中,数据的不确定性是普遍存在的,并且随着数据量的急剧增加,传统的集中式的分类方法已经不能有效地学习这样的海量数据。面向不确定数据流的分类面临如下的挑战:(1)如何对不确定流数据进行有效的分类处理;(2)对数据流概念漂移的检测和处理;(3)如何利用分布式算法解决大数据的学习问题。基于此,本文对于具有概念漂移的不确定数据流分类问题展开了以下研究工作:首先,了解不确定数据流产生的背景及特点,之后研读并掌握已有的不确定数据的分类算法以及数据流分类算法的核心思想。其次,利用MapReduce技术对大矩阵运算进行优化,提出了能够满足于大量数据处理的分布式极限学习机(Distributed Extreme Learning Machine,DELM),使得传统集中式的极限学习机(Extreme Learning Machine,ELM)能够以更高的效率来适用于大规模流数据处理。再次,针对不确定数据流分类问题,提出了基于分布式极限学习机的加权集成分类算法(Weighted Ensemble Classifier based on Distributed ELM.WE-DELM)。该算法首先建立不确定数据模型,将不确定数据通过建立可能世界模型的方式转换为确定数据的处理,并且可以根据各个基分类器的分类结果动态的调整基分类器的权值,使得在发生概念漂移时,能够删除旧的不再适应新概念的基分类器,同时重新建立能够更加快速准确地收敛于新概念的分类器。然后,根据实际应用中数据流蕴含的概念往往会有一些往复出现的特点,基于WE-DELM算法提出了基于概念缓冲的加权集成分布式极限学习机算法(Concept Buffer Weighted Ensemble Classifier based on Distributed ELM,CBWE-DELM),该方法有效的避免了已有的分类算法一般仅存储当前的概念,当新概念发生时模型每次都需要重新学习的缺点,更加适用于有概念往复现象的数据流的学习。最后通过大量的实验对算法的性能进行了验证。实验结果表明:本算法能够有效的解决的不确定数据流的分类问题,能够解决概念漂移的问题,同时对于海量且高速的数据流具有更高的效率和较高的准确率。