论文部分内容阅读
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘技术的评价模型成为了一个研究热点。本文首先介绍了数据流挖掘系统MOA (Massive Online Analysis)平台,其中应用到的数据流挖掘技术,包括分类算法、聚类算法、概念漂移检测等方法。然后,本文从分类问题入手,介绍了数据流分类技术的评价模型,重点介绍针对数据流分类算法的各种评价策略及评价指标。在此基础上提出了两种评价模型,即面向平衡准确度的评价模型(BalancedAccuracy),以及数据流环境下的AUC(Area Under roc Curve)评价模型(AUC2Stream)。最后,本文结合MOA平台的人工数据流生成器生成的数据以及真实世界中的数据流,进行了相关实验,用这本文提出的两种评价模型来评价不同数据流分类算法,得出相应指标,利用可视化统计与分析工具,比较不同数据流分类算法在每种指标下的优劣,以及呈现优劣的潜在原因。实验结果表明,面向平衡准确度的评价算法BalancedAccuracy由于考虑到准确度与资源消耗之间的关系,可以更加平衡地利用准确度来评价数据流分类算法,在计算资源(计算时间以及占用内存)约束,但仍需要获得较高的准确率的情况下,利用BalancedAccuracy来评价数据流分类算法更为准确;面向数据流环境下的AUC2Stream评价模型可以计算数据流环境,多类值数据集问题中不同数据流分类算法的AUC值,所以在这种情况下,如需要获得更高的召回率且更低的假正率,利用AUC2Stream来评价数据流分类算法更为准确。本文提出的评价模型,在指导使用数据流分类算法方面提供了更充分的理论依据。