论文部分内容阅读
时间序列流数据(Streaming Time Series)其特性不仅与时间有关,而且海量、高维和实时更新的特性使得该数据挖掘问题难度加大。而时间序列流数据又往往与日常生活息息相关。所以时间序列流数据的异常检测问题已成为当前数据分析与挖掘的热点问题。为此本位针对时间序列流数据异常检测开展了研究,其主要工作内容如下:(1)本文提出了基于边缘计算的分布式时间序列异常检测模型。利用边缘计算的大数据处理思想,尽可能的将相应的数据在接近数据源的计算资源上进行相应的处理,在减轻网络传输带宽压力的同时,提高了数据处理的整体效率。在分布式数据异常检测模型的基础上,本文提出了基于时间序列的异常检测算法(Anomaly Detection for Streaming Time Series,ADSTS)。本算法将根据时间序列数据的离群距离测算以及时间序列之间的相关性对时间序列中的异常时序点进行检测。实验结果显示本算法性能良好,检测时间短并且异常检出率高。(2)本文提出了基于改进的符号化特征表示方法FD-SAX的时间序列异常检测方法(Time Series Anomaly Detection Based on FD-SAX,TSAD-FD)。TSAD-FD在时间序列特征表示的基础上,构建增强查找树对时间序列中的异常序列进行有效识别。实验结果显示本算法在保持检测精度的基础上,相应搜索剪枝率以及整体的异常检测效率均优于同类的对比方法。(3)本文提出了基于分段聚合(PAA)特征表示以及高维时间序列流数据索引结构(High-Dimensional indexing for Time Series,HDITS)的K近邻连接异常检测算法。PAA特征表示可以帮助HDITS避免出现因为“维度灾难”而造成的检索性能急剧降低的问题,而HDITS可以迅速对不相似的序列进行有效地剪枝操作,从而加速异常检测的搜索效率。实验结果表明本算法在保证搜索精度的同时,能够对某个具体时刻或者某个时间范围内的异常序列进行高效检测,即能够保证被检出的异常模式序列具有一定的“时效性”。