基于主动学习和变分自编码器的时间序列异常检测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ddall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测旨在发现与大多数数据模式不匹配的实例。对于传统的时间序列异常检测算法而言,由于数据具有高维特性,在降维的过程中经常丢失一部分信息,造成检测错误。对于近年较为热门的基于深度学习的异常检测算法而言,该半监督方法需要仅包含正常样本的训练集,但是现实数据是正常和异常的混合,并且异常具有少而不同的特点,所以在构建训练集的过程中需要耗费高代价进行人工标注,并且容易混入噪声样本,降低模型准确率。针对上述问题,本文提出了基于变分自编码器的主动异常检测框架(ALBLVE)。该框架基于池的批处理模式,在混合的样本池中,通过趋势表示的分段聚合采样策略找到一批最小熵样本,再基于重构编码的分类器找到异常时间序列和子序列。在采样策略模块,本文提出趋势表示的分段聚合采样策略(TPAA),针对降维信息损失和滑动窗口敏感问题,使用二进制字符串来记录局部时间的相对趋势和形状特征,用均差值代替原有的PAA距离,并通过理论证明该相似度方法是分段聚合方法PAA的严格下界。为了适应异常检测场景,根据最小熵原理,本文选择了一批正常置信度高的样本,该批样本具有较高的代表性可以有效减少训练样本的数量。在基分类器模块,本文在变分自编码器的结构下,提出了基于重构编码的BILSTM-VAE-ENCODER(BLVE)模型。为了使模型适应时间序列,在编解码部分加入了双向长短期记忆网络。为了降低重构误差并保证正常数据的潜在空间分布一致,本文使用重构编码器对生成样本的再编码得到一个新的潜在空间,并约束其和原始潜在空间之间的差异性。在计算异常得分时,为了避免距离计算受到噪声影响,本文采用了潜在空间的均方误差。本文在UCR和UCI数据集上进行实验。实验结果表明,以AUC为评价指标,相对于基线方法,趋势表示的分段聚合采样策略的准确率平均提高了3%左右,并且对时间窗口尺寸不敏感。同时相对于基线异常检测方法,基于重构编码的异常检测方法(BLVE)的性能有约9%的明显提升。通过混合样本检测,AL-BLVE方法可以接近BLVE模型的结果。
其他文献
网络表示方法一般分为两种,传统的基于拓扑的网络表示通常直接使用邻接矩阵,该矩阵可能包含噪声或冗余信息。基于嵌入的网络表示旨在学习低维空间中节点的密集和连续表示,从
我国是苹果产量大国,苹果产量占全球总产量的50%以上,苹果外观的好坏对苹果的售卖速度、价格与效益都有重要影响,因此,对苹果外观的快速、准确检测并分类是苹果售前处理的关
随着计算机技术的不断发展,药品安全管理一方面使药品生产销售的管理更为正规化,另一方面也为追溯药品来源及去向提供了可靠依据。由于药品安全管理系统信息录入过程中,包含
绩效考核作为提高企业和员工绩效的重要工具,在企业健康持续发展中的作用日趋重要,其重要性和必要性已被广泛接受,很多单位进行了积极探索,对于进一步增强企业的竞争力起到了
本文通过大量不同几何尺寸试样(不同面内/面外拘束)的J积分和裂尖张开位移(CTOD)的有限元数值计算,结合材料断裂韧性试验数据及理论分析的方法,主要研究基于CTOD的载荷无关的
模拟广播数字化是必然趋势。目前国内存在中国数字音频广播(Digital Audio Broadcast,DAB)和中国数字广播(China Digital Radio,CDR)两个行业标准,二者互有优劣,可能会长期共
Markov跳跃系统作为一类特殊的切换系统,由于能够很好地描述工业生产过程中各类复杂实际系统,受到了人们的越来越多的关注。此外,实际生活中的不确定性,外界干扰通常会对系统
准确的网络流量分类在网络安全领域中至关重要,有很多应用程序使用动态端口和加密算法来规避检测,而诸如基于端口和基于载荷的分类方式存在很大的不足。后续又出现了将机器学
胞外组蛋白(也称为循环组蛋白)是细胞在损伤、压力或死亡状态下释放的一种具有细胞毒性的物质,在脓毒症、类风湿性关节炎、急性肺损伤等多种疾病的发生发展中起关键作用。但
大规模城市风场研究在城市环境定量评估方面起着重要作用,有助于解决城市大气污染物扩散、行人风舒适度、城市热岛效应以及城市自然通风等问题,是城市微气候研究的热点问题之