论文部分内容阅读
异常检测旨在发现与大多数数据模式不匹配的实例。对于传统的时间序列异常检测算法而言,由于数据具有高维特性,在降维的过程中经常丢失一部分信息,造成检测错误。对于近年较为热门的基于深度学习的异常检测算法而言,该半监督方法需要仅包含正常样本的训练集,但是现实数据是正常和异常的混合,并且异常具有少而不同的特点,所以在构建训练集的过程中需要耗费高代价进行人工标注,并且容易混入噪声样本,降低模型准确率。针对上述问题,本文提出了基于变分自编码器的主动异常检测框架(ALBLVE)。该框架基于池的批处理模式,在混合的样本池中,通过趋势表示的分段聚合采样策略找到一批最小熵样本,再基于重构编码的分类器找到异常时间序列和子序列。在采样策略模块,本文提出趋势表示的分段聚合采样策略(TPAA),针对降维信息损失和滑动窗口敏感问题,使用二进制字符串来记录局部时间的相对趋势和形状特征,用均差值代替原有的PAA距离,并通过理论证明该相似度方法是分段聚合方法PAA的严格下界。为了适应异常检测场景,根据最小熵原理,本文选择了一批正常置信度高的样本,该批样本具有较高的代表性可以有效减少训练样本的数量。在基分类器模块,本文在变分自编码器的结构下,提出了基于重构编码的BILSTM-VAE-ENCODER(BLVE)模型。为了使模型适应时间序列,在编解码部分加入了双向长短期记忆网络。为了降低重构误差并保证正常数据的潜在空间分布一致,本文使用重构编码器对生成样本的再编码得到一个新的潜在空间,并约束其和原始潜在空间之间的差异性。在计算异常得分时,为了避免距离计算受到噪声影响,本文采用了潜在空间的均方误差。本文在UCR和UCI数据集上进行实验。实验结果表明,以AUC为评价指标,相对于基线方法,趋势表示的分段聚合采样策略的准确率平均提高了3%左右,并且对时间窗口尺寸不敏感。同时相对于基线异常检测方法,基于重构编码的异常检测方法(BLVE)的性能有约9%的明显提升。通过混合样本检测,AL-BLVE方法可以接近BLVE模型的结果。