数据流概要与数据流分析若干关键问题研究

被引量 : 26次 | 上传用户:kongjiahao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传感器数据处理、金融证券管理、Internet流量监控、Web使用日志及电话呼叫记录的在线分析等新型应用领域对数据的管理与分析提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质是对数据流的管理和分析。数据流是连续的、输入速率随时间变化的、有序项的序列,数据流上的查询通常连续运行,当新数据到达时增量式地返回结果,即所谓的长时间运行的、连续的、持久的查询。数据流及其相关技术已经成为当前数据处理领域的研究热点之一,管理和分析这些连续数据流为传统的数据库领域带来许多新的机会和挑战。随着传感器、数据通信、普式计算等相关技术的发展,工业领域中以数据流方式获取的数据量急剧增加,一些典型工业应用领域如电力系统对数据流处理速度和分析结果精度的要求越来越高。高精度、快速的数据流分析与高效的具有自适应性数据流管理技术是数据流相关技术走向实用化、产业化的一个重要突破口。典型的工业数据流管理与分析包括数据流采集与预处理、数据的特征抽取、数据聚集等基本连续查询的分析与执行、相关性检测或预测与分类等复杂的分析操作。本文针对上述应用需求展开的主要研究工作及取得的创新性成果概述如下:(1)在数据流清洗方面,提出了带有遗忘因子的Kalman滤波预测算法,能够有效地检测出未来时刻的异常数据;提出了一种新颖的数据流上的异常数据修正方法,应用插值小波根据连续异常数据数量的不同,实现了可变插值尺度的异常数据修补,能够自适应修正精度。在实际电力负荷数据上的仿真实验证明这种方法可以在线准确地检测到异常数据,并能提供精确的异常数据修正。(2)在流数据特征近似抽取方面,对采样、直方图、流矩阵不等概行列采样等概要生成方法进行了深入研究,针对不同概要在某些方面的缺陷提出相应的改进算法,进一步在各种数据流概要基础上,提出一种基于概要的数据流管理系统框架,作为此框架的实现,设计了一种适用于工业控制的协调者-工作者数据流聚集模型,基于概要产生可变长数据划分粒度的动态负载均衡方法,解决分布式环境下工业数据流的聚集处理问题,通过对不同分布仿真数据的实验分析证明提出的模型能够获得较高的加速比。(3)在高维数据流相关性分析方面,将统计理论中经典的典型相关性分析方法(CCA)应用于数据流领域,从理论上证明了基于不等概采样的低阶近似技术应用于高维数据流复杂计算的可行性,提出适于数据流处理的一过性(one-pass scanning)多变量相关性分析的增量算法StreamCCA,理论分析和合成及真实数据上的实验证明StreamCCA能够在线计算多维数据流之间的典型相关系数。(4)在数据流值预测方面,提出带有“尺度导引”的插值小波算法,在确定性预测信息的基础上,实现可变预测时间间隔的数据流值预测。构造不连续测量值的特殊卡尔曼滤波模型和误差预测算法,体现时间序列数据流的动态变化,满足高速数据流只能一遍扫描的限制。为了在计算资源受限的前提下,协调预测精度与计算复杂度,根据流值变化的快慢程度自适应地确定预测步长:在流值平稳时缩短预测步长提高预测精度,在流值快速变化时使用较长的预测步长降低计算代价,同时仍然能够保证要求的预测精度,形成最佳预测点轨迹。(5)多数分类方法基于数据服从静态分布的假设,然而真实世界中数据的采集通常跨越一段时间,从几秒到几年,如果忽略潜在概念的变化(即概念漂移)将会严重降低分类模式的预测性能。提出一种在线分类系统StreamSPRINT,可以动态调整训练窗口的尺寸和分类模型重建期间允许接受的新样本的个数,以适应当前概念漂移发生的速度;可以对每个数据流样本至多读取一次,并且在常数时间内处理。在合成和真实数据流上的测试验证了StreamSPRINT的性能。基于上述研究成果,结合电力系统应用领域对高性能数据流管理与分析系统的迫切要求,采用软硬混技术和并行技术与同研究组其他成员设计并实现了一个数据流管理与分析系统原型。由于系
其他文献
人民币汇率相关的问题一直是国内经济学界研究的重点,特别是2000年以后,来自美国与日本要求人民币升值的压力不断升温,人民币是否低估问题已经不仅仅具有理论研究价值,在目前
近年来,在金融服务、网络监控、电信数据管理及传感器检测等领域中,出现了一类新的数据密集型应用。这类应用的特征是:数据以大量、快速、时变的数据流形式持续到达,所以数据
人们常说,人生有几大幸事,“生在苏州,穿在杭州,吃在广州,死在柳州”。其中“死在柳州”,意指柳州棺材材料优良,做工精致,人们竞以“死在柳州”为荣。其实,柳州闻名全国远不只因为它的
以面向实际应用为主,以循序渐进的方式逐步介绍利用渐进式算法实现任意进制的直接转换,并对转换效率进行了分析。渐进式算法同时也适用于不规则进制数之间的转换。最后实现了
80年代以来,我国童装业迅速崛起,新兴了大量的童装品牌。我国加入WTO以后,大量的国外童装品牌涌入中国,在我国童装市场上出现了国内外童装品牌竞争的格局,在品牌纷争和激战的背后
进入21世纪,在知识经济迅速发展的时代条件下,人才已经成为在激烈的国际竞争中制胜的法宝。我国要在这场竞争中取胜,就必须高度重视人才问题,培养大批高素质的社会主义人才。近年
城市街道景观是城市街道空间环境的重要组成部分,也是城市开放空间体系的一部分,既有其自然属性,也有其社会文化属性,是复杂的景观空间系统。城市街道景观不仅要承担一定的城
自2004年12月11日中国履行入世承诺,中国零售市场取消数量和区域等保护限制,国外大型零售集团在中国市场上迅速扩张,中国连锁超市企业面临的竞争将会越来越激烈。与国际零售
高新技术在无缝线路铺设中的应用,加大了无缝线路的科技含量,提高对无缝线路的认识和加强管理更有利于高新技术的渗透。