论文部分内容阅读
随着计算机网络技术的发展,在线信息量迅速增长,数据流模型在一些信息处理应用中广泛出现。这些应用包括多媒体、计算机网络安全、网络交通监控、传感器网络等等。在这种情况下,数据流作为专门针对数据无限性、瞬时性和时变性等特点的新数据模型,更能适合WEB应用环境。因此,数据流处理的研究近几年来逐步兴起,并迅速成为WEB数据挖掘中的一个重要的研究问题。数据流分类是数据流挖掘中的一个重要研究领域,但在原来的数据应用背景下的分类算法,都隐含地假定所要挖掘的数据存放在一个相对稳定的环境中,即在挖掘进行的过程中,待挖掘的数据库或数据仓库中的数据或者是固定不变的,或者更新频率是较低的。数据流所具有的特点便对挖掘算法带来了巨大的挑战,具体来说:(1)数据总量通常被假定是无限的,无论到达多少数据,分类算法只能使用不超过某个大小的内存;(2)对数据的多次扫描代价太高,算法通常只能对数据扫描一次;(3)学习算法必须快速地适应数据流中出现的概念漂移;(4)数据流分类算法应该在任意时刻都可以产生一个分类模型。本文主要关注从理论方面研究数据流分类分析,同时对WEB数据挖掘应用研究也进行了一些探讨。研究工作得到了国家自然科学基金(2069901)和国家教育部博士点基金(2069901)的部分资助。对数据流分类技术的理论研究方面,主要成果如下:1.为了有效处理数据流中的重现背景,设计了一种能够有效处理重现背景的数据流模型,给出了一种可以有效挖掘重现背景的数据流分类算法RTRC(Recognizing and Treating Recurring Contexts)。该算法在扫描了足够多的数据后,即使在概念漂移时也能达到良好的分类效果。通过马尔可夫链和最小二乘方法,该算法可以学习并预测即将到来的概念和精确的概念漂移时间。通过在人工数据集和基准(Benchmark)数据集上的实验,与两种有代表性的方法WeightedBaggging和CVFDT(Concept-adapting Very Fast Decision Tree learner)进行比较,表明我们的算法具有更高的准确度和更快地收敛到新的目标概念的性能。2.噪音处理和概念漂移是数据流挖掘中的困难问题。本文探讨了如何使用聚类方法在数据流中区分出噪音实例,并提出了相应的概念漂移检测方法。在此基础上,设计了基于推进技术的组合分类器算法RobustBoosting。在人工数据集和实际数据集上的实验表明,我们的算法即使在高达40%的类噪音时,与AdaptiveBoosting算法相比,仍能保持更高的分类准确度,具有更快收敛到新的目标概念的能力。3.许多研究者已经提出了可以处理概念漂移的学习系统,其中一些系统假定流数据是以连续数据段的形式抵达。针对这种数据流,研究界已经提出了基于组合分类器的处理方法。虽然这些系统可以处理逐步的概念漂移,但是不能有效地处理突然的概念漂移。为了解决这个问题,本文定义了一种相反分类器来从错误中学习,并提出了训练一个组合分类器来对具有概念漂移的数据流进行分类的算法IWB(Improved Weighted Bagging)。在人工数据集和基准数据集上的实验结果表明,IWB算法在遇到概念漂移的时候能很快收敛到目标概念,并具有很高的精度。4.目前对数据流挖掘的研究,主要关注有标记的实例可以学习时,怎样发现模式中的变化以及怎样更新模型去反映这种变化。然而在真实的数据流中,数据往往没有类标记。为了解决这个问题,本文提出了一种基于累积和(CUSUM)控制图的变化发现方法。该方法在未知真实类标记的情况下,可以发现数据流中的概念漂移和分布变化。实验验证表明,此方法是有效的。本文也从WEB数据挖掘应用的角度进行了一些研究工作,主要成果如下:1.WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合,本文提出了利用WEB页面内容和超链信息并结合SVM分类器的WEB社群挖掘方法。在包含8282个网页的WEBKB数据集上的实验结果表明,本文提出的方法可以挖掘出较大而且有意义的社群。2.目前有大量的研究关注利用序列关联规则算法来预测用户的最近HTTP请求。本文设计了基于不同次序特征和时间特征的序列关联规则挖掘算法,比较了不同序列关联规则算法在WEB日志挖掘中的预测精度,并在Clarknet Web Log数据集上进行了实验。最后,使用方差分析方法对影响预测精度的次序特征和时间特征进行了分析,发现都比较显著,并且这两者之间的交互影响也不可忽略,但时间特征对预测精度的影响更大。