面向部分异常已知的时间序列数据的异常检测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sqs292241644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据中的异常数据蕴含了重要信息,如心电数据中异常模式对应心脏疾病,信用卡异常交易数据对应欺诈事件等,因此对时间序列数据进行异常检测具有重要意义。目前基于深度学习的异常检测算法在训练时只关注正常数据的深度特征提取,当正常样本与异常样本比较相近时,提取的特征不能有效区分正常和异常。而在实际应用场景中其实部分异常数据是已知的,但现有的大多数异常检测算法并没有考虑利用这些先验知识,忽略了异常数据对模型的指导和反馈。针对上述问题,本文面向部分异常已知场景下的时间序列数据异常检测算法展开研究,利用这些已标记的异常数据提高异常检测算法性能。时序数据也属于高维数据,流形理论中提到高维数据往往在原始空间存在冗余,但在低维空间存在着蕴含其本质结构特征的流形,该流形可以通过模型提取低维特征去近似得到。而生成模型在高维数据的特征提取方面有较好的效果,且其产生的重构误差能用于衡量数据的异常程度。为了使生成模型产生高区分度的重构误差作为异常得分,本文基于流形理论假设,即异常数据在正常数据对应的流形之外,提出了基于生成模型和流形约束的异常检测算法。该算法在对抗自编码器的原始空间中添加判别器构造出双重对抗网络,更好地实现了潜在空间的流形学习和重构生成;并将部分已知异常数据的潜在向量约束到正常数据对应潜在向量的流形上,引导模型生成类似于正常样本的重构样本,获得高区分度的重构误差。多个现实场景数据集的实验结果表明,该算法能产生高区分度的重构误差用于异常检测,在大多数数据集上比其他算法表现更好。基于生成模型的方法完成重构需要十分丰富而充足的特征,但对于异常检测而言这些特征可能包含冗余信息,因为只需那些能区分正常和异常数据的关键特征,也能获得高区分度的异常得分。相比生成式学习,对比学习不关注繁琐的细节,只在特征空间中学习区分不同类别数据,模型优化也更加简单。为了得到具有高区分度的特征,本文进一步提出了基于对比学习和互信息约束的异常检测算法。该算法基于利用正常数据和部分已知异常数据设计合理的正负样本对,并从互信息角度设计了适用于异常检测的新型判别网络及对比损失函数,用于引导特征提取网络提取具有高区分性的特征,从而得到高区分度的异常得分。多个现实场景数据集的实验结果表明,该算法能为异常检测提取有效特征并输出高区分度的异常得分,异常检测结果优于其他算法。
其他文献
随着中国多层次市场的不断健全,投资者和消费者学会使用数据分析工具辅助投资,深入了解行业变化,改进投资策略。行业分类问题作为金融领域研究的基石,是学者的重要研究对象,也是企业着重关注的指标。现有的金融行业分类方法依赖于及时的专家维护和公司完全公开透明的信息,消耗时间和精力,不利于投资者追踪企业动向,也不利于企业及时调整自身定位。为了弥补以上问题,本文提出了完全的以数据为驱动的行业分类任务,特别地,构
学位
<正>"平常时间能看得出来,关键时刻能冲得出来,危急时刻能豁得出来"。这是时任浙江省委书记习近平2005年3月21日在杭州市淳安县公安局调研时作出的重要指示要求,是激励浙江公安事业发展进步的强大精神力量。湖州市公安局结合开展政法队伍教育整顿,围绕争创全省公安机关"三能"主题教育实践活动示范先行市,把政治建警作为忠诚谋事的"大前提"、务实干事的"总航标"、和顺共事的"硬保障",全力打造"忠诚、阳光、
期刊
研究目的大脑中动脉动脉瘤(middle cerebral artery aneurysms,MCAA)是较常见的颅内动脉瘤,显微手术治疗仍是其主要治疗方式。通过回顾我院大脑中动脉动脉瘤显微手术治疗患者的临床资料,探讨影响显微手术预后的危险因素及手术技巧,为今后神经外科医师治疗MCAA时提供一些参考。研究方法收集自2016年1月至2020年12月期间就诊安徽医科大学第二附属医院,确诊并在院内行MCA
学位
伴随着深度学习及强化学习的发展浪潮,人工智能技术的发展日趋成熟,实际应用范围愈加广泛,可适用于更多的现实场景中。研究人员期望实现更加通用的人工智能,即让机器像人类一样通过学习和思考来解决问题。迈向通用人工智能的一条重要途径是深度强化学习方法。相比于发展成熟的单智能体强化学习领域,多智能体强化学习领域仍有许多亟待解决的问题。面向非完全信息环境的多智能体协同强化学习因更加贴近人类的真实生活而引起研究人
学位
近年来,随着深度学习技术的高速发展,深度神经网络相关技术的研究取得了显著的成就,并且正在被应用到越来越多的实际场景中,成为现实世界重要的组成部分。而在这个过程中,当前的深度神经网络在一些方面也暴露出和人类大脑之间的显著差距,例如在训练样本不足时会出现过拟合现象,以及增量式地学习新知识时会灾难性地遗忘原先学过的旧知识。不幸的是,较少的训练数据和增量式的学习需求对于现实世界中的智能体来说非常常见,导致
学位
近年来,智慧城市的大力推动以及物联网技术的日益成熟,催生了大量的时序数据。时序数据分类作为时序数据挖掘中的前沿问题之一,一直备受研究人员的关注。而且现在随着传感器的种类和数量增多,时序数据的数据量和复杂性也随之提高,使得时序数据分类成为一项更具挑战性的任务。目前主流的时序数据分类方法主要分成两类:传统方法和深度学习方法。传统方法容易受领域知识的限制,不太适合当下的时序数据分类任务。而基于深度学习的
学位
身处大数据时代,人工智能技术为我们生活带来诸多便捷,身份认证便是其中之一。人脸检测与识别作为身份认证最重要的支撑技术,一直以来都备受关注。特别是近年来,深度学习的发展极大提升了人脸检测与识别的性能。在疫情的大背景下,出行佩戴口罩是自我保护的重要方式,口罩带来了人脸遮挡问题,而遮挡带来的人脸信息丢失以及遮挡物信息干扰给现有的人脸检测与识别算法带来极大挑战。如何弥补因遮挡而丢失的特征信息以及如何剔除因
学位
背景断层皮片移植是整形和皮肤手术中一种重要的治疗方法,中厚皮片具有存活较易,在存活后的收缩性、耐磨性、颜色改变等方面不明显等特点,在整形外科中被广泛应用于身体各个部位皮肤缺损的修复。而移植后留下来的皮片供区,愈合过程中疼痛、瘙痒等不适及伴发感染等并发症,极大增加了患者的痛苦。表皮生长因子(epidermal growth factor,EGF)是一种生长因子,可通过刺激上皮细胞有丝分裂和趋化性来调
学位
目的与外伤相关的面部瘢痕可能会对患者的心理健康和生活质量产生深远的影响。硅凝胶膜(Silicone Gel Sheeting,SGS)是目前预防增生性瘢痕的首选产品。我们对面部外伤行急诊清创缝合手术后希望预防明显瘢痕的患者推荐硅凝胶贴膜,但这类产品在临床上的使用存在诸多限制。最近的研究表明,A型肉毒毒素(Botulinum Toxin Type A,BTA)具有抗增生性瘢痕的特性,其机制包括降低伤
学位
近年来,随着硬件性能的不断提升,深度学习得到了广泛的应用,极大的推动了计算机视觉、自然语言处理等领域的发展。然而,深度学习在这些领域中优秀的表现,离不开训练阶段所使用的海量数据。但是在不少实际场景中,受限于隐私、安全等原因,难以提供足够的数据供模型训练,因此围绕小样本展开的研究逐渐成为热点。现阶段,在小样本图像分类领域,针对类别间差异不大的细粒度数据集,不少模型都能够获得较好的效果。然而,当模型训
学位