论文部分内容阅读
随着计算机硬件、网络通信和分布计算技术的飞速发展,产生了一种新型的数据类型—数据流,它广泛存在于诸如互联网监控、金融分析、传感器网络、天气或环境监测等领域中。传统的数据处理技术适合处理静态、稳定的数据集,难以直接扩展至无限、快速、变化、持续的数据流场景中,因此,如何管理和分析这些数据流,特别是,通过数据流挖掘及时检测网络异常等问题,成为新一代计算理论和应用的研究难点。本文在总结和分析国内外现有研究工作的基础上,围绕数据流挖掘的四个关键技术:相似性搜索技术、频繁模式挖掘技术、数据流分类技术和数据流任意形状聚类技术展开深入研究,主要工作包括:1、在数据流相似性搜索方面,针对数据流上难以建立索引结构的特点,基于动态时间扭曲距离函数(DTW, Dynamic Time Warping),通过对其下限函数的研究,利用数学中的分段、填充元和行列约束度等概念,构造了一组适合不同场景的数据流相似性度量函数及其配套的上下界精化函数,进而提出了相应的数据流相似性搜索算法。理论分析和统计实验表明,本文构造的函数和搜索算法计算复杂度低,相似性程度高,在数据流相似性搜索中有很好的应用前景。2、在数据流频繁模式挖掘方面,针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法。该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数进行统计,以此刻画界标窗口内模式的频繁程度;进而,为有效降低空间开销,设计了剪枝阈值函数,用于对预期难以成长为频繁的模式及时从全局树中剪除。论文对出现在算法中的重要参数和阈值进行了深入分析。一系列试验表明,与现有同类算法MSW相比,该算法挖掘精度高(平均超过90%),内存开销小,速度上可以满足高速数据流的处理要求,且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘。3、在数据流分类方面,传统的后向传播算法难以满足数据流实时处理的要求。基于核主成份分析算法,通过对其增量化求解方法的研究,构造了旨在降低分类处理量的维数约减算法;进而结合BP神经网络提出了相应的数据流分类算法。理论分析和统计实验表明,本文构造的维数约减算法时空复杂度低、收敛性能稳定,分类算法能够满足数据流实时处理要求,且分类精度较高。4、在数据流任意形状聚类方面,针对数据流的时效性和概念漂移特性,提出了滑动窗口模型与时间衰减模型相结合的数据流任意形状聚类算法。该算法应用时间衰减模型以指数级速度衰减历史元组密度,使当前滑动窗口外元组的密度近似衰减至零;通过构建六元组聚类特征结构,在界标窗口内统计微簇的衰减密度,以此刻画其在滑动窗口内的疏密程度。并运用剪枝策略,对当前窗口中稀疏微簇和窗口外微簇及时进行剪枝,从而有效地降低了空间开销和维护代价。一系列试验表明,与现有同类算法DenStream相比,该算法聚类速度快,内存开销小,且可以适应不同长度、维数和自然簇个数的数据流任意形状聚类。