基于自注意力的多维指标无监督异常检测及应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:a553892340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,网络服务已浸透人们生活的方方面面,而维护背后软硬件网络系统安全可靠的运行,以及应对各类突发事件则离不开运维人员的工作。但随着科技的进步,应用系统的规模及复杂程度的提高,传统运维方式逐渐被淘汰。智能运维在应对海量数据时,能更好地运用算法从海量数据中总结规律、提取规则,辅助运维人员做出更优的反应和决策。其中,对运维数据的异常检测技术在推动智能运维的发展具有不可或缺的作用。运维指标时序数据具有可视化成本低、含义明确、规律明显的特性,因而被广泛于运维状态的监控及异常检测中。但是又因为异常的发生比例较低且标记困难,所以针对运维数据的异常检测算法多使用无监督学习。现如今在智能运维方向上的异常检测算法模型大致可分为固定阈值模型、传统模型、时序预测模型及深度学习模型四类。虽然这些模型都从不同角度对这一问题提出解决方案,但是它们都没有同时考虑捕获数据在时间维度上的相关性、在指标维度上的相关性以及对噪声鲁棒等多方面因素,并且多数模型仅对单维指标数据进行异常检测,并没有实现对多维时序数据整体异常状况的判断。本文针对上述现有模型的一些缺陷,提出了一种可以兼顾数据在时间、指标维度的相关性及对噪声鲁棒,同时对多维指标数据整体进行异常检测的模型。主要贡献有三点:(1)结合数据特征和需要解决的问题,构建了针对本文模型的数据集及抽样方法。(2)基于自编码器思想和自注意力机制构建重构模型,将对多维指标数据的无监督异常检测转化为对单维重构差异值的异常检测。(3)结合时序数据分解与动态置信区间的思想实现对重构差异值的异常检测,对每个时间点的应用异常状态输出判断。上述三点贡献的具体工作如下:(1)本文采用的数据集为某互联网公司后台运维关键性指标数据。考虑到数据量大,记录频率高,故采用在时间维度上构建滑动窗口的方式提取数据。同时结合运维数据受用户行为影响而具有强周期性的特点,通过提取数据的时间戳信息,向原始数据中的指标维度添加时间特征,使得之后模型在训练数据时可以更有效地利用到时间信息。为了提高模型精度,文中结合异常数据的数据特征设计抽样方式,加大了易混淆数据被抽中的概率,从而提高难训练样本的比例。(2)文中主体模型的第一部分是基于自编码器思想和自注意力机制构建的重构模型。该模型的基本思想是将原始的多维指标数据通过神经网络损失部分信息,再将之还原,从而找出数据中存在的主要数据变化模式。通过构建真实数据与还原数据之间的差异值即可用于后续的异常检测。重构模型的构建参考了自编码器思想,使模型具有一定的抗噪性;而模型主体使用了自注意力机制,从而有效地利用了数据在时间及指标维度的相关性。为了使模型更多地学习到正常数据的特点,而非仅仅得到模型输出与标签数据在数值上的贴近,模型的输出为输入指标数据预测得到的还原数据的均值矩阵及方差矩阵,并利用该模型的预测输出构建多维高斯分布,模型的损失函数即利用输入数据在该高斯分布下对应的对数概率密度函数构建,这样的损失函数加入了更多地统计量信息,使模型更多地去学习正常数据模式的分布。同时为了使模型在各项指标上的拟合效果更为均衡,本文模型的损失函数中也添加了正则项——模型在指标维度上的平均预测概率密度的方差,这一添加项的作用也在之后的实例中进行了验证。(3)本文主体模型的第二部分即是利用(2)中所述的重构模型的输出与模型输入的真实数据构造的差异值进行异常检测。文中列举了多项差异值指标构建方式,通过结合数据特征,本文的实例分析部分最终选择了均方误差作为重构差异值指标。最终得到的差异值在异常及正常数据模式下具有明显的不同,并且在正常数据模式下依旧具有时序数据小幅周期性波动的特点。之后在利用差异值进行异常点检测时,考虑到时序数据具有趋势变化性和季节性的特点,本文设计了一个由趋势项和季节项构成的函数对差异值进行拟合。再结合全局数据分布及近期数据分布两方面的影响,对每个时间点拟合结果的余项构建动态置信区间,在进行异常检测时,落在置信区间外的点则被判定为异常。综上所述,本文主要设计了一种在智能运维方向上针对多维指标数据进行无监督异常检测的模型,同时可以在时间维度输出对应用的异常状态判断。并于第四章的实例中通过与其他两项广泛应用的异常检测模型进行对比,最终在多项评估指标上均获得更优的表现,验证了本文模型的有效性。
其他文献
随着城市人口和人均收入的增加,城市汽车使用率显著提高,导致交通拥堵现象日益严重,从而制约了城市的经济发展。交通预测任务作为智能交通系统(ITS)重要的研究内容,能够为城市交通决策提供重要的依据。交通预测是典型的时空序列预测问题,由于交通数据复杂的时空依赖性,实时准确的交通预测一直是一个巨大的挑战。在空间维度上,交通状态的变化受路网拓扑结构的影响,具体表现为上游道路的交通状态对下游道路的交通状态的传
学位
股市投资策略的研究具有非常重要的理论意义和实际价值。与传统的股市投资方法相比,基于人工智能技术的量化投资策略具有更好的自适性等诸多优点。强化学习提供了一套从实际经验中学习最佳解决方案的方法,而有利于与金融市场的直接互动。过去的几年里,已有许多学者对标准深度Q学习(DQN)算法进行改进。基于值函数分布的分布强化学习算法(如C51、QR-DQN等)在Atari游戏中有优于基于价值期望的标准DQN算法的
学位
因子投资涵盖的内容多种多样。利用因子,可以获得收益,也可以控制风险;利用因子,可以进行资产管理,也可以获得套利机会;利用因子,可以去研究投资者所预期的回报,也可以去研究投资者收益的波动。这些因子可以被用来表征和描述众多投入资产中所共同暴露在其身上的某些系统性风险,这些系统性风险就是影响资产价值和收益的驱动因素,而因子回报与这种系统性风险存在较多的联系。历史研究中发现,因子类的随机组合通常有着最高的
学位
随着近些年通信,计算和嵌入式系统技术的飞速发展,物联网系统已广泛部署在不同类型的应用场景中,例如智能家居,智能医疗,智能交通,智慧能源以及工业自动化等。随着智能电网的不断建设,TSDB数据库中收集到的负荷数据也成指数倍增加,如何从这些数据中挖掘出用电行为和状态,并对可能存在的用电异常进行检测,对于保障电网的安全稳定运行具有重要意义。因此,本文基于分解与重构的方法从一个真实的多维物联网用电数据集中挖
学位
本文利用2015年1月1日之后银行间和交易所市场交易过并且评级在A以上的固定利率债券的周度收盘价格,对于国企债和民企债数据,分别基于三次样条折线函数,利用最小二乘估计的方法估计得到各个时间点的折现因子,随后获取了各个时间截面上的两年期、三年期、四年期和五年期的折现因子,并利用折现因子计算得到了即期利率曲线。从得到的即期利率曲线上可以看到,在国企债和民企债上都呈现先下降再上升最后回落的时间趋势,时间
学位
改革开放以来,随着我国经济水平的发展,城市化进程的推进,城市生活垃圾产生数量的越来越多,由此引发了大量与生活垃圾相关的问题,给我们的生活环境、生态水平带来更大的挑战,“垃圾围城”成为城市发展之痛。垃圾分类政策的推行有助于提升垃圾的处理速度、保障经济的高速发展、保障生态环境的改善。我国将城市生活垃圾分为可回收物、厨余垃圾、有害垃圾、其他垃圾四类,研究垃圾图片分类算法有助于居民简易、正确的进行垃圾分类
学位
目的:探讨温经养血汤与艾灸疗法应用于子宫内膜异位症痛经患者的效果,以便临床寻找出更有效的治疗方案。方法:选取2019年12月-2021年9月荆门市中医医院收治的子宫内膜异位症痛经患者120例,依据随机数字表法将其分为对照组和试验组,各60例。对照组给予艾灸疗法,试验组在对照组的基础上给予温经养血汤治疗,两组均连续治疗3个月。比较两组临床疗效,治疗前后中医症候积分、血液流变学、血清前列腺素F2α(P
期刊
我国的投资市场长期处于个体投资者占据绝大多数的环境中,投资者的情绪对于我国市场经济有着决定性的重要作用。从市场经济运行的角度来看,多数学者都认为,投资者的情绪和收益波动率之间是呈正向相关的,即投资者的情绪愈是高涨,其收益波动率也愈大。本文通过利用文本数据刻画了投资者的情绪,基于异质市场假设提出HARQ-RV-CJ-SENT模型,改善了对已实现价格波动率的预测效果,并从因果检验的角度深入分析了二者之
学位
在当今的大数据时代,指数级增长的文本数据给人工智能带来了更多的可能性,自然语言处理领域逐渐受到更多的关注。随着深度学习的发展,海量数据的自动化处理要求不断提高,如何高效利用非结构化文本信息成为一个紧迫且重要的热点任务。知识图谱、事理图谱等概念也渐渐兴起,事件抽取作为构建知识图谱的重要信息抽取技术,对于其他下游任务具有重要的意义,目前深度学习凭借着强大的自动特征抽取能力,逐渐成为事件抽取的主流研究趋
学位
中国已经顺利走完全面建设小康的道路,并在此基础上将继续向全面建设现代化国家迈进,由此再次将公共卫生安全和人民健康的历史任务凸显出来。新中国成立以来,尤其是十八大以后,中国在公共卫生领域取得了重大成就,困扰贫弱中国多年的各种传染病逐个消灭,人均寿命稳步提升,社保制度日益健全,医疗保健水平显著提升,制度的优越性愈加凸显。但社会主要矛盾的转变在公共卫生领域向理论和实践提出了更高的要求,随着经济社会的发展
学位