论文部分内容阅读
随着数据库理论研究的广泛深入,许多新的技术应运而生。近年来在传感器网络监控、网络监测、金融数据分析、科学数据处理等多个领域,关于数据流的研究已经成为具有广泛应用前景的新兴课题。由于数据流的特殊性:短时间内有大量数据连续到达,这些数据随时间动态变化。怎样对这些流式数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。相似性查询是数据挖掘的一项重要任务,同时也是聚类、分类、频繁模式挖掘和异常检测等其它任务的基础。如何对数据流进行相似性查询已经引起数据库研究领域的广泛关注。本文采用相关性分析作为相似性查询的度量标准,提出了在多个时间序列数据流中进行快速相关性分析的一系列算法。主要工作包括以下几点:(1)提出一种基于布尔表示的数据约减技术。通过简单的转换将原始数据流序列转换为布尔序列,利用布尔序列间的位运算快速获取结果。该方法将原始的数值数据转化为比特位,占用的内存空间极小。(2)在用户提前定义滑动窗口大小的前提下,提出一种分层布尔表示算法HBR,实现多个时间序列数据流的同步相关性分析。该方法将原始数据流序列分别转换为宏布尔序列和微布尔序列,通过布尔序列间的比较即可快速定位候选相关性集合。(3)在同步相关性分析基础上,提出一种高效的滞后相关性分析算法BLC,利用布尔滞后相关技术分析序列之间的滞后相关性,并快速探测滞后时间。(4)在用户没有定义滑动窗口大小的前提下,提出一种窗口大小可调整的自适应性相关性分析算法SACA。利用布尔自相关系数获取原始数据流序列的周期特性,根据周期对多个序列进行分组,然后在每一个分组中完成窗口大小的自适应调整。通过理论分析和实验验证,上述算法在多个时间序列数据流的相关性分析中具有较高的效率。