数据流概念漂移检测和不平衡数据流分类算法研究

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:iloveyouguoran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的飞速发展,在信用卡欺诈监测、网络流量监控和在线金融交易等场景中产生了大量的数据流。这些数据流中蕴含着大量有价值的信息,为了获取这些信息,人们开展了大量的数据流挖掘研究。与静态数据不同,数据流中的数据具有规模大、变化多样、高速到达等特点。因此,传统的数据挖掘技术不能完全适用于数据流挖掘,需要找到合适的方法来处理数据流。另外,数据流中的数据分布会随着时间发生变化,产生概念漂移现象,这也加大了数据流挖掘研究的难度。数据流中的概念漂移检测和数据流分类问题是数据流挖掘领域中的热点问题之一。数据流中的概念漂移检测和数据流分类主要面临以下的挑战:首先,数据流到达速度快、变化多样且无法预知,这些变化会影响分类器的分类性能。其次,数据流也存在静态数据中的类不平衡问题,进一步加大了处理概念漂移的难度,而且对少数类的误分类代价一般较大,对分类器也有了更高的要求。本文主要围绕以上问题,对数据流中的概念漂移检测算法和数据流分类算法进行研究,主要工作包括:(1)提出了一种基于数据分布的概念漂移检测算法。利用基于数据分布差异的检测方法发现数据流中的概念漂移现象,在检测到概念漂移之后,利用多变量检验方法结合存储的历史信息识别数据流中重复出现的漂移现象。通过对比实验验证本文所提出的检测算法的性能,结果显示,该检测算法具有较低的误报、漏报和检测延迟,在和分类器结合之后,有效地提高了分类器的分类正确率,并且可以发现重现的漂移。(2)提出了一种基于集成学习的不平衡数据流分类算法。该算法利用数据采样技术,先利用过采样技术增加正类样本,再利用欠采样技术删除负类样本,从而达到平衡正负类样本的目的。在集成过程中,根据基分类器在最新数据块上的分类正确率和分类错误的代价更新基分类器的权值。同时,在分类器的淘汰过程中考虑到了基分类器对集成分类器分类正确率的贡献。该算法不仅可以处理类不平衡问题,还可以很好地适应数据流中的概念漂移现象。通过对比实验验证了所提出的算法能够在不平衡的概念漂移数据流上取得较好的分类效果。
其他文献
随着信息科技时代的来临,许多曾经需要人工收集数据信息、操作的系统和流程如今已经计算机化,产生了许多信息管理系统例如图书管理系统,然而许多信息管理系统都面临处理速度
WebGIS是Internet技术应用于GIS开发的产物。随着互联网技术的快速发展,WebGIS越来越流行,已经成为大众不可或缺的工具。但是传统的WebGIS客户端依赖于Html,与用户的交互性差
当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需
随着软件系统的演化,系统的模块化结构会逐渐偏离其最初设计,并且这种偏离的不断积累通常会降低软件的可维护性,损害软件的整体质量,甚至使软件更容易引入缺陷或错误,进而导
本文主要讨论最小邻居化问题和邻居最大化规则下Voronoi博弈形式的竞争选址问题。最小邻居化问题是指对平面中给定的n个点,选址放置k个新点使得在n+k个点的Voronoi图中,所有
实验教学是教学活动中的重要环节,有利于学生深刻理解理论知识、积极发挥主观能动性、进行科学研究与再创造,是从理论走向实践的桥梁,也是高校教学中不可或缺的重要组成环节。实
物联网技术成为近些年人们研究的热点,而作为物联网关键技术之一的无线传感器网络更是热点中的关键点。无线传感器网络是一种特殊的Ad-hoc网络,因此其除了具有Ad-hoc网络的一般
随着互联网技术的爆炸式发展,在线交易渐渐成为日常生活中越来越受重视的商品交换方式。确保参与者之间交易的公平性是保证电子支票,电子机票,电子合同签订等电子商务活动可
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进
可逆水印技术是指水印被提取之后,原始数据能够完全恢复,主要应用于对图像的完整性和真实性要求高的领域,如法律仲裁、医学、军事等。随着三维建模技术的发展,网格水印技术受