论文部分内容阅读
传感器数据处理、金融证券管理、Internet流量监控、Web使用日志及电话呼叫记录的在线分析等新型应用领域对数据的管理与分析提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质是对数据流的管理和分析。数据流是连续的、输入速率随时间变化的、有序项的序列,数据流上的查询通常连续运行,当新数据到达时增量式地返回结果,即所谓的长时间运行的、连续的、持久的查询。数据流及其相关技术已经成为当前数据处理领域的研究热点之一,管理和分析这些连续数据流为传统的数据库领域带来许多新的机会和挑战。随着传感器、数据通信、普式计算等相关技术的发展,工业领域中以数据流方式获取的数据量急剧增加,一些典型工业应用领域如电力系统对数据流处理速度和分析结果精度的要求越来越高。高精度、快速的数据流分析与高效的具有自适应性数据流管理技术是数据流相关技术走向实用化、产业化的一个重要突破口。典型的工业数据流管理与分析包括数据流采集与预处理、数据的特征抽取、数据聚集等基本连续查询的分析与执行、相关性检测或预测与分类等复杂的分析操作。本文针对上述应用需求展开的主要研究工作及取得的创新性成果概述如下:(1)在数据流清洗方面,提出了带有遗忘因子的Kalman滤波预测算法,能够有效地检测出未来时刻的异常数据;提出了一种新颖的数据流上的异常数据修正方法,应用插值小波根据连续异常数据数量的不同,实现了可变插值尺度的异常数据修补,能够自适应修正精度。在实际电力负荷数据上的仿真实验证明这种方法可以在线准确地检测到异常数据,并能提供精确的异常数据修正。(2)在流数据特征近似抽取方面,对采样、直方图、流矩阵不等概行列采样等概要生成方法进行了深入研究,针对不同概要在某些方面的缺陷提出相应的改进算法,进一步在各种数据流概要基础上,提出一种基于概要的数据流管理系统框架,作为此框架的实现,设计了一种适用于工业控制的协调者-工作者数据流聚集模型,基于概要产生可变长数据划分粒度的动态负载均衡方法,解决分布式环境下工业数据流的聚集处理问题,通过对不同分布仿真数据的实验分析证明提出的模型能够获得较高的加速比。(3)在高维数据流相关性分析方面,将统计理论中经典的典型相关性分析方法(CCA)应用于数据流领域,从理论上证明了基于不等概采样的低阶近似技术应用于高维数据流复杂计算的可行性,提出适于数据流处理的一过性(one-pass scanning)多变量相关性分析的增量算法StreamCCA,理论分析和合成及真实数据上的实验证明StreamCCA能够在线计算多维数据流之间的典型相关系数。(4)在数据流值预测方面,提出带有“尺度导引”的插值小波算法,在确定性预测信息的基础上,实现可变预测时间间隔的数据流值预测。构造不连续测量值的特殊卡尔曼滤波模型和误差预测算法,体现时间序列数据流的动态变化,满足高速数据流只能一遍扫描的限制。为了在计算资源受限的前提下,协调预测精度与计算复杂度,根据流值变化的快慢程度自适应地确定预测步长:在流值平稳时缩短预测步长提高预测精度,在流值快速变化时使用较长的预测步长降低计算代价,同时仍然能够保证要求的预测精度,形成最佳预测点轨迹。(5)多数分类方法基于数据服从静态分布的假设,然而真实世界中数据的采集通常跨越一段时间,从几秒到几年,如果忽略潜在概念的变化(即概念漂移)将会严重降低分类模式的预测性能。提出一种在线分类系统StreamSPRINT,可以动态调整训练窗口的尺寸和分类模型重建期间允许接受的新样本的个数,以适应当前概念漂移发生的速度;可以对每个数据流样本至多读取一次,并且在常数时间内处理。在合成和真实数据流上的测试验证了StreamSPRINT的性能。基于上述研究成果,结合电力系统应用领域对高性能数据流管理与分析系统的迫切要求,采用软硬混技术和并行技术与同研究组其他成员设计并实现了一个数据流管理与分析系统原型。由于系