【摘 要】
:
近年来云端应用的不断增加,其云服务器的稳定保障变得至关重要,这就意味着要对云服务器数据做到准确有效的异常检测。然而面对云服务器复杂的数据模式,简单的人为观察并不足以做到对云服务器的有效检测,而是需要通过算法检测出数据中的异常,为后续的故障定位、设备检修等提供依据。尽管经过多年发展,目前的异常检测方法依旧存在以下不足:(1)使用场景受限。严重依赖单一领域的专家知识库和人工辅助,在出现异常时需要不断更
论文部分内容阅读
近年来云端应用的不断增加,其云服务器的稳定保障变得至关重要,这就意味着要对云服务器数据做到准确有效的异常检测。然而面对云服务器复杂的数据模式,简单的人为观察并不足以做到对云服务器的有效检测,而是需要通过算法检测出数据中的异常,为后续的故障定位、设备检修等提供依据。尽管经过多年发展,目前的异常检测方法依旧存在以下不足:(1)使用场景受限。严重依赖单一领域的专家知识库和人工辅助,在出现异常时需要不断更新对应的规则;要求待检测数据需要服从某种分布,这意味着当数据分布不确定时很难找到合适的模型进行分析;(2)标签依赖程度高,数据样本不均衡。有监督的方法若需要提高准确率则要求收集大量的异常样本来解决正负样本不均衡的问题;无监督方法的计算效率较低不适用于线上检测,同时需要不断调整参数和阈值,在数据维度较高的时候无法准确判断异常值;(3)特征利用不充分,算法在处理多维数据时容易忽视过多数据特征(例如时间特征和空间特征),在无法判断特征重要性时,丢失的特征信息会影响最终的异常检测效果,同时数据维度之间的相关关系可能会被忽略;(4)异常阈值界定标准模糊。目前阈值界定太多依靠人为界定,不同领域的数据集对异常的概念定义都有一定差异,而异常检测的结果严重依赖于阈值的选择。针对上述不足之处,本文提出了一种无监督的融合时空特征的数据重构异常检测方法,具体的工作如下:面对带有时间特征和空间特征的数据,首先通过建立图模型描述数据的空间特征和属性,将云服务器视为节点,将连接关系视为边;然后通过图卷积神经网络模型提取其空间信息;接着将不同时刻的空间信息构成时间序列输入到长短期记忆网络模型中提取时间信息;使用训练好的GCN-LSTM模型对输入的数据进行重构,生成的重构数据并与原输入数据形成重构误差;最后再使用基于Copula函数的方法(COPOD)计算重构误差的经验累积分布和对应时间快照下的尾部概率进行异常检测。在实验环节,本文使用了来自大数据批处理系统的MBD数据和微服务的事务处理系统的MMS数据进行实验评估,结果说明了该方法在无监督和无需人为调节阈值的情况下,可以充分利用数据中的特征,能较好地完成异常检测任务,证明了该方法的有效性和准确性。然而,在GCN-LSTM模型重构数据时,重构的大多数数据可以被认为是正常的,但是带有异常的数据也会被模型一同重构生成,所以在生成重构误差的时候会存在应有的误差被抵消,从而降低模型的效果。为了进一步提高模型的性能,本文引入了Encoder-Decoder框架,将前文提出的重构模型改进为Seq2Seq模型。通过GCNLSTM将输入序列数据中的信息进行编码,再使用另一个GCN-LSTM模型进行解码,形成一个新的GCN-LSTM Encoder-Decoder架构,从而得到优化后的重构序列。同时,为了解决序列过长导致的模型性能下降问题,本文还引入了注意力机制以选择序列中的最值得关注的信息进行全局考虑,从而让重构模型获得了更长足的进步和提升。最后,本文使用了与改进前同样的数据集和COPOD异常检测方法进行实验评估,各项指标都有了约5%-25%的提升,证明了改进后基于GCN-LSTM Encoder-Decoder和注意力机制的异常检测方法在不依赖数据标签的情况下,能更好地提取数据特征并进行重构,并且能有效检测出数据中的异常。
其他文献
胡萝卜不但是人们喜欢吃的蔬菜,同时也是优质的多汁类饲料,但是,胡萝卜病虫害的发生较为严重,常常会引起产量下降,质量变差,因此,需要采取有效的措施做好胡萝卜病虫害的防治工作。对于胡萝卜病虫害的防治要以绿色防控为主,掌握胡萝卜主要病虫害的发生特点,采取农业防治、生物防治等绿色防控措施,减少农业面源污染。
Ceph分布式存储系统基于完全分布的设计思想,消除了系统对单一中心节点的依赖,实现了统一的高性能数据存储。利用廉价的普通服务器搭建Ceph分布式存储系统成为一种高效的大数据存储解决方案。但随着系统规模增大,存储节点发生故障的现象愈发常见,导致数据不可读甚至丢失的风险提升。因此需要设计更为高效、可靠的数据冗余机制,保障数据的安全性和可靠性,提高Ceph集群故障节点修复性能。现有的分布式存储系统通常使
氨气的制备及性质验证实验是中学化学最常见和极具趣味性的实验,而传统的实验装置,在实验过程中容易造成氨气的外逸,存在操作繁琐、浪费时间及尾气处理不彻底的问题。针对传统实验装置存在的不足,对实验装置做了改进,形成制取氨气和性质验证的一体化实验装置,缩短了实验时间,简化了实验过程,实验现象明显,符合实验微型化要求和绿色化学的理念。
“全民健身”于2014年上升为国家战略的背景下,随着国家政策出台、居民消费水平提高、投资资本进入,使健身行业的产业规模、产值、GDP占比均在逐年提升,健身俱乐部的发展迎来了高速期。然而,由于健身倶乐部的进入门槛低、区域性较强且产品同质化比较严重,行业竞争十分激烈,各个健身俱乐部之间往往是采取价格战的方式进行营销,到头来往往收入减少,最终可能造成健身俱乐部难以继续经营最终卷款潜逃,消费者蒙受损失,整
西医引入中国,与西方传教士传教有关。近代基督教新教办医院、医学院、开展公共卫生服务成为近代中国医疗卫生事业的重要组成部分。英国医学博士、英国皇家外科学会会员、伦敦会传教士詹姆斯·韩德森(James Henderson)由伦敦会派遣于1860年3月到达中国上海,随即主持上海仁济医馆工作。在上海五年的医疗传教生涯中,以医院工作报告、书信、笔记、论文、自传和著作的形式,留下了丰富的文字记录,对近代中国上
心理问卷调查是获取心理健康诊断数据的主要手段之一。心理学家在使用传统分析软件进行心理问卷分析时,较难通过表格及文字形式的统计结果直观得出结论;且由于心理问卷通常为非线性的层次结构,使用传统软件从各层面对其进行分析时,操作繁琐、效率较低。应用数据可视技术并结合易用性高的人机交互机制,建立心理问卷可视化分析方法,可有效地改善上述问题。因此,本文在分析当前国内外心理问卷可视分析的研究现状后,提出一种适用
进入21世纪以来,随着社会观念的变化与人民消费水平的提升,国内男性对于化妆以及皮肤保养的看法发生了本质的改变,他们越来越在意自己的“面子”问题,这种观念的转变使得中国男性逐渐成为消费及使用美妆产品的重要群体。目前国内的男性美妆产品市场已经有了一定规模,如何使男士美妆产品更好的契合中国男性美妆消费者的消费心理是各美妆品牌市场竞争的关键所在。本文从消费心理学的角度出发,通过对国内男士美妆消费人群及潜在
冷水机组广泛应用于大型建筑、工业制冷等领域,采用气体轴承的离心冷水机组因其高效、可靠、紧凑等优势,成为重要研究方向。系统中的轴承供气、高速电机冷却过程使系统循环更为复杂,分析系统热力循环及变工况运行特性是系统设计及优化的前提。考虑了轴承供气及电机冷却过程,建立了带经济器的气悬浮冷水机组的数学模型,分析了系统热力学参数变化规律,结果表明:蒸发温度升高时,系统COP增大而?效率减小,系统COP和?效率
随着物联网时代的到来,海量数据存储受到了广泛关注,NAND闪存作为一种新型存储介质,它凭借容量大、数据吞吐率高、功耗低等优势被广泛应用于各种数据存储系统中,如固态硬盘(Solid State Disk,SSD)。闪存之所以成为非易失性存储器(Non-Volatile Memory,NVM)中的杰出代表,主要是因为存储芯片尺寸的减小以及多级闪存单元(Multi-Level-Cell,MLC)技术的发
随着人工智能技术的普及,越来越多的深度学习应用运行在终端上为用户提供服务。这些深度学习应用往往需要消耗大量的计算和存储资源,以保证低时延的服务质量。然而,终端设备的资源是有限的。终端设备不仅在计算和存储资源上难以满足深度学习应用的资源需求,而且有限的能量供应也限制了深度学习应用的发展。为解决终端设备深度学习应用中资源和能量供应受限问题,边缘计算提供了一种可行的技术方案。通过将深度学习应用的部分计算