基于流数据聚类的KPI时间序列异常检测算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hblhzl_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测问题是数据挖掘领域的重要研究方向之一,其中关键性能指标(KPI)异常检测也是其中的重要问题之一。随着基于网络的软件系统的发展,企业和运营商越来越重视对网络流量和用户浏览时间等关键性能指标的分析。与传统的时间序列异常检测相比,KPI时间序列异常检测具有数据量大、标签少等特征、概念漂移等问题,导致传统的异常检测模型在处理KPI数据时面临巨大挑战。受概念漂移的影响,时间序列数据的分布会随时间发生变化,这对异常检测模型学习带来了很大的挑战。流数据聚类可以有效地记录时间序列数据的历史信息,并且在数据发生概念漂移时能够适应时间序列中的概念漂移。基于此,本文借助流数据聚类策略解决时间序列异常检测问题,利用不同数据特征的选择和通过双重差分来分析时间序列,提升流数据聚类对时间序列的适应能力和对抗概念漂移的能力,从而提高模型的分类准确率。主要工作内容包括以下几个方面:1.为了有效地检测出时间序列中的点异常,提出了一种基于邻域残差的流数据聚类的时间序列异常检测算法。该算法通过当前数据与历史数据的残差作为特征进行流数据聚类,从而有效地检测出时间序列中数据的突变。同时,由于基于聚类的方法中参数较多且难以确定,而这些参数对算法的性能影响很大,该算法基于历史数据实现了聚类中参数的自适应,使得模型的调参变得更加容易。实验结果表明,该算法在时间序列数据中能够对数据突变异常有较高的准确度。2.针对时间序列中的子序列异常问题,提出了一种基于相似性度量的流数据聚类的时间序列异常检测算法。在该算法中,通过计算当前时间窗口数据与历史时间窗口数据的相似度来判断当前时刻时间序列的分布是否发生变化。另外,根据不同时间窗口数据的相似性来设计聚类特征,通过该聚类特征对数据的分布进行归纳,确保算法在概念漂移现象发生时,能够检测并且适应概念漂移。实验结果表明,提出的算法能够有效检测出时间序列中子序列异常,并且能够提高算法对概念漂移的适应能力。3.针对前两个工作中对时间序列中可能发生的概念漂移没有直接进行检测的问题,提出了一种基于双重差分算法的流数据聚类的异常检测算法。在该算法中,借助双重差分算法对时间序列前后数据的分布进行检测,并且通过检测结果来更新聚类微簇,强化算法对概念漂移的检测效果。实验结果表明,该算法可以适应多种时间序列数据,并且具有更高的检测准确率。
其他文献
在科学与工程的技术应用中多目标优化问题随处可见,具体表现在自动控制、投资组合、投资决策和车间调度等方面。虽然超多目标优化问题在很多领域都有广泛应用,但随着目标数量的增大,现有的超多目标进化算法也暴露出较多的弊端。例如,算法在进化过程中无法较好地判断出解的支配关系,导致非支配解的数量快速增长,从而使得算法难以选择出合适个体进入下一代,最终造成算法收敛到局部最优解甚至无法收敛。本文针对超多目标优化问题
学位
去中心化移动众包系统借助区块链技术,摆脱了集中式移动众包系统对可信中心化众包平台的依赖,利用区块链系统代替第三方实体,通过矿工节点的工作保证系统的稳定运行。去中心化移动众包系统通常包含请求节点,工作节点和矿工节点三类节点,节点协同执行任务,保证系统的安全和发展。但其缺少了可信中心的监管,所有节点的行为完全自主,动态的去中心化环境和不可预测的节点行为对去中心化移动众包系统的性能提出了挑战,因此需要合
学位
现如今,互联网的兴起,不良信息在互联网的传播以及医疗需求的不断增加,许多诊疗交互系统的功能以及性能不能满足用户的使用需求,因此本论文针对目前诊疗交互系统的不足,设计与开发了基于Spring Boot框架的诊疗交互系统—云病历。此外,目前市面上的诊疗交互系统很少考虑到敏感信息在诊疗交互系统中传播的可能性,所以本文进一步在云病历系统原有功能的基础上针对敏感信息的存在增加了敏感语义检测模块并给出了具体的
学位
多目标优化问题是工程应用与科学研究的基本问题,解决此类问题的主要方法是进化计算。随着众多学者提出许多经典的多目标进化算法,经过多年实践证明这些算法能很好解决多目标优化问题,但是面对高维决策变量的大规模多目标优化问题,它们的求解有效性会大幅缩减。这就是著名的“维度灾难”问题,当维度增加时,搜索空间会呈指数型扩大。而现实世界中存在大量的高维多目标优化问题亟需解决,所以迫切需要设计新型算法来解决大规模决
学位
三维人体模型重建一直是计算机视觉领域的一个重要研究课题。现有的互联网公开数据中包含大量的人体图像,重建三维人体模型可以更好地理解和描述图像中人体动作、形态、表情等信息。基于深度学习的方法在重建三维人体模型领域中应用较为广泛,然而目前缺少包含全身三维人体模型标签的公开数据集,这给基于单目图像重建全身三维人体模型带来了很大的阻碍。本文构建了带全身三维人体模型标签的数据集,并提出了端到端的全身三维人体模
学位
科技飞速发展的今天,Web系统的规模和复杂性也不断增加,如何确保系统的安全性与稳定性是系统开发过程中的难题,测试也在系统开发流程中起着至关重要的作用。手工测试是如今测试工作中常用的方法,但局限于人力、时间等资源条件。在规模越来越大、模块越来越复杂的系统中,手工测试效率低、测试覆盖率低,已成为测试发展的一大难题。每个项目都面临如何提高测试效率的问题,而自动化测试就可以解决这个难题,但是同时自动化测试
学位
图结构在实际生活中的应用越来越广,例如化学分子结构、交通网络、以及社区社会关系等都可以被构建为图。图神经网络(Graph Neural Networks,GNN)是一种基于信息传递的神经网络,非常适合处理图结构数据。近年来,由于图结构强大的表示能力,图神经网络在关于图的各种任务中取得了出色的性能,但是随着应用场景的复杂性增加逐渐暴露出了一些问题比如现有的大多数GNN模型是依赖手工设计导致其适应性比
学位
金刚石材料因其具有硬度大、禁带宽度大、载流子迁移率高和热导率高等优异的材料特性,在高频高功率器件的研发领域具有巨大潜力。近年来,国内的金刚石材料和器件发展较快,但仍存在单晶金刚石材料尺寸小、质量低和器件电学性能差等问题。基于此,本文对高质量、大尺寸单晶金刚石的生长及高性能金刚石基器件的实现展开了研究。本文研究内容和成果如下:1、基于微波等离子体化学沉积(MPCVD)设备分析和研究了甲烷、氮气和氧气
学位
表面贴装技术(Surface Mounted Technology,SMT)是电子制造业的核心工艺,已成为印制电路板(Printed Circuit Board,PCB)制造的主要方式。电子制造企业在生产中积累了大量的生产经验知识,但多以孤立的技术文档等非结构化文本形式存在,尚未形成统一的知识库,不利于知识的复用、传承和管理。企业借助于信息化系统在生产中积累了海量结构化数据,但这些数据并未被充分利
学位
变化检测作为遥感影像处理领域的基础性任务,旨在分析、比较同一地区不同时间的遥感影像,并检测出其中所发生的的变化。随着近年来一大批类型多样的高分辨率遥感影像的不断涌现,变化检测任务的挑战显著增加。首先,随着影像分辨率的提升,影像所包含的场景更加复杂,干扰信息也更多,这对于变化检测任务的特征提取环节提出了极高的要求;其次,对于高分辨率遥感影像,像素级的类别标注费时费力,如何减少网络训练过程中对于标记样
学位