数据流分类技术的评价模型设计及其实现

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:yaocjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘技术的评价模型成为了一个研究热点。本文首先介绍了数据流挖掘系统MOA (Massive Online Analysis)平台,其中应用到的数据流挖掘技术,包括分类算法、聚类算法、概念漂移检测等方法。然后,本文从分类问题入手,介绍了数据流分类技术的评价模型,重点介绍针对数据流分类算法的各种评价策略及评价指标。在此基础上提出了两种评价模型,即面向平衡准确度的评价模型(BalancedAccuracy),以及数据流环境下的AUC(Area Under roc Curve)评价模型(AUC2Stream)。最后,本文结合MOA平台的人工数据流生成器生成的数据以及真实世界中的数据流,进行了相关实验,用这本文提出的两种评价模型来评价不同数据流分类算法,得出相应指标,利用可视化统计与分析工具,比较不同数据流分类算法在每种指标下的优劣,以及呈现优劣的潜在原因。实验结果表明,面向平衡准确度的评价算法BalancedAccuracy由于考虑到准确度与资源消耗之间的关系,可以更加平衡地利用准确度来评价数据流分类算法,在计算资源(计算时间以及占用内存)约束,但仍需要获得较高的准确率的情况下,利用BalancedAccuracy来评价数据流分类算法更为准确;面向数据流环境下的AUC2Stream评价模型可以计算数据流环境,多类值数据集问题中不同数据流分类算法的AUC值,所以在这种情况下,如需要获得更高的召回率且更低的假正率,利用AUC2Stream来评价数据流分类算法更为准确。本文提出的评价模型,在指导使用数据流分类算法方面提供了更充分的理论依据。
其他文献
如何在节点能量与计算能力等资源有限的情况下,为无线传感器网络的数据传输提供可靠高效的机制,以保证数据的逼真度和传输效率,是无线传感器网络研究中的一个基本问题。因为网络
随着信息技术迅速发展,电子商务作为一种新型、高效的商务模式快速得到普及,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品中,无
随着软件系统应用的广泛化和复杂化,如何开发面向方面的软件系统,进而提高系统的可复用性,可维护性以及可扩展性已经成为软件工程重要研究课题。目前,面向方面的软件开发与模型驱
天然的各类岩石中普遍存在节理裂隙,了解节理裂隙的性质对于地质、地球物理、采矿、石油工程、水文地质以及核废料隔离都具有重要意义。岩石节理裂隙研究的一项重要内容是表面
BBS是网络舆情产生和传播的主要场所之一。由于手段匮乏,BBS中网络舆情的研究目前仍处于探索阶段。及时发现潜在的突发网络舆情,了解网络舆情的演化规律,已经成为网络舆情预警的
对等(P2P)计算在管理和利用日益增长的分布式信息和计算资源方面表现出了良好的性能,所以基于P2P计算的新型分布式系统(P2P系统)成为Internet最流行的系统之一。特别是Gnutell
近年来,恶性肿瘤(癌症)的发病率和死亡率均呈上升趋势,已成为严重威胁人类生命健康的主要疾病。放射治疗作为肿瘤治疗的三大主要手段之一,在肿瘤治疗中发挥着重要的作用,功能影像
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大,电子证据正悄然走近司法领域。与传统证据相比,由于电子证据极容易
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大。目前大规模的数字取证调查至少存在两个基本挑战。第一是如何满
位置管理是蜂窝通信网中的一个重要问题,随着移动用户数量的快速增加,移动用户的漫游将导致巨大的系统资源消耗,因此对现有的移动性管理算法进行调整和优化是十分重要的。