论文部分内容阅读
我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个问题:“如何才能不被数据淹没,而是从中及时发现有用的信息?”。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。经历了多年的研究,数据挖掘已发展成为一个庞大的学科,主要包含分类、关联规则、聚类等。最近几年出现了大量新类型的应用,传统的数据库管理系统无法很好的处理这些应用。这些应用的典型特点是数据以序列的形式出现,比如传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等。这种数据形式称为数据流。由于数据流的特殊性:短时间内有大量数据连续到达,这些数据具有随时间动态变化的趋势,怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。数据流上的分类问题具有广泛的应用背景,包括:信用卡欺诈消费行为的监测、传感器网络数据中的异常监测、网络日志分析等。数据流的数据无限、概念漂移等特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整已反映新的分类信息。本文中,对数据流上的分类问题从两方面进行了研究。一方面,针对数据快速流入,并且存在概念漂移的数据流提出了基于频繁模式和关联规则的分类算法。另一方面,研究了对多个数据流的数据进行分类时的负载均衡问题。本文主要贡献包括:●提出了基于频繁模式的数据流分类算法,利用频繁模式概括数据流中的类信息,通过动态的添加删除频繁模式、以及改变频繁模式的支持度和置信度表示概念漂移。使用衰减因子来保持频繁模式的时效性。基于频繁模式的数据流分类算法提高了现有算法的准确性。●从效率出发,提出了基于规则的数据流分类算法。使用高效的数据结构压缩训练集和规则集,并且使用基于错误分类记录集学习新规则的方法,从而提高了数据流分类算法的效率。●对基于规则的算法进一步进行了扩展,提出了两种扩展算法,用来解决类分布不均衡时的数据流分类问题。●对多数据流进行分类时的负载均衡问题进行了研究。针对带宽有限、服务器无法接收所有数据流产生的待分类数据的情况,提出了一种有效的负载均衡算法。算法使用保持分类信息的数据变换方法将分类信息进行压缩,然后使用多步数据获取机制从不同数据流获取数据。并且,使用布尔向量和负信息等技术结合真实数据和变化信息,进一步对需要传输的数据进行了压缩。