面向监控指标的云服务异常检测与诊断

来源 :清华大学 | 被引量 : 0次 | 上传用户:yangyuwu21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云服务的流行与发展,保证云服务的稳定运行对提升用户体验起到重要作用。为此,云服务中的各个系统组件持续地采集监控指标。运维人员需要对监控指标进行异常检测以快速发现云服务的异常状态,包括单指标的分别检测和多指标的整体检测。然而,云服务经常进行软件变更,可能导致指标数据分布发生显著的变化即概念偏移。以往的异常检测方法没有处理概念偏移,因而其准确率会显著下降。另外,检测到异常后需要对监控指标进行根因诊断,确定异常的根本原因。根因诊断通常要结合具体的领域知识,并且需要具备可解释性以帮助运维人员做决策。比如在云数据库领域,数据库管理员需要解决间歇性慢查询的根因诊断问题。本文解决了异常检测与根因诊断的实际挑战,实现了面向真实云服务监控指标的三个系统。本文的主要贡献总结如下:(1)适应概念偏移的单指标异常检测框架:据本文所知,本文第一次提出单指标异常检测需要稳定且快速地适应概念偏移的问题,并且设计实现Step Wise框架解决该问题,主要创新包括无需调参的概念偏移检测方法和鲁棒线性模型的适应算法。Step Wise部署在搜狗搜索的多个云服务中进行评估。实验表明,Step Wise能在概念偏移发生后提升多种常用的异常检测算法的准确性,相比没有适应的情况准确率提升206%,适应延迟只需约6分钟。(2)快速启动的多指标异常检测方法:本文研究发现软件变更后,以往基于深度学习的多指标异常检测算法启动时间过长,难以应对概念偏移。本文提出可以快速启动的方法Jump Starter,首次将压缩感知技术应用于多指标异常检测,并且设计了基于形状的聚类算法和规避离群值采样算法。Jump Starter使用腾讯和字节跳动公司的云服务多指标数据进行评估。实验表明,Jump Starter只需二十分钟的启动时间,并且可以达到94.1%的准确率。(3)间歇性慢查询的根因诊断框架:据本文所知,本文第一次提出云数据库服务中间歇性慢查询的根因诊断问题,并且设计了可解释的诊断框架i SQUAD。结合领域知识,i SQUAD设计了四个核心组件,即异常提取、关联清洗、面向指标类型的模式集成聚类算法和贝叶斯案例模型,帮助数据库管理员快速诊断间歇性慢查询的根因。i SQUAD应用在阿里巴巴云数据库的间歇性慢查询根因诊断中,平均诊断准确率达80.4%,诊断效率也大幅提升。
其他文献
房地产行业牵涉广泛,是国民经济的支柱产业。近年来,房地产行业在我国蓬勃发展,成为经济增长的重要引擎,在筹集财政收入、支持地方经济发展等方面发挥关键作用。但是房地产企业因税务风险被税务机关查处的情况仍时有发生,企业税务风险的爆发,极大的影响公司自身的生产经营。因此研究房地产企业税务风险的管控,可以帮助房地产企业在市场竞争中取得竞争优势,也可以促进房地产行业的健康发展。本文研究的思路是,根据房地产企业
利用膨胀剂与水和其它胶凝组分的反应产生膨胀,可有效控制水泥基材料的收缩开裂。MgO膨胀剂具有反应需水量小、水化产物稳定、膨胀历程易于控制等优点,可用于补偿混凝土在各龄期的收缩。目前对于MgO膨胀剂的水化作用机理研究很少,无法解释其在使用过程中遇到的过度膨胀、持续膨胀等问题,不利于MgO膨胀剂的推广应用。本文研究了MgO膨胀剂在水泥浆体中的水化反应过程与产物,揭示了MgO膨胀剂的作用机理,观察了Mg
在新能源产业快速发展的大背景下,锂离子电池的市场规模迅速扩大。然而繁荣背后,一方面由碰撞引发的电动汽车电池安全事故频繁见诸报道,另一方面车企为了续航里程的提升,困扰于如何提高电池系统能量密度。可无论是解决电池碰撞安全问题还是针对电池系统结构的优化,都亟待深入研究锂离子电池力学特性。本研究从电池的组分材料力学测试与标定着手,结合微观建模的手段分析其在真实电池内部的力学机理。再利用精细化的建模仿真方法
在日常生活中,人与环境中的物体进行大量复杂的交互。对人与物体的交互运动进行三维重建是计算机视觉和计算机图形学的重要研究内容,在动画、机器人、增强现实等领域具有广泛的应用价值。当前,人与物体交互运动重建技术在重建的空间范围、结果的完整性以及使用的简便性上仍有诸多限制。本文围绕基于深度相机的人与物体交互运动实时三维重建技术进行了深入的研究,提出了一系列创新算法,拓展了交互运动重建的空间范围,提升了重建
作物产量是作物生长发育和逆境耐性综合作用的结果。明确植物生长发育和非生物胁迫响应之间互作的分子机理,对提高作物产量具有重要的指导意义。DREB1A(DEHYDRATION-RESPONSIVE ELEMENT BINDING PROTEIN 1A)和DREB2A(DEHYDRATION-RESPONSIVE ELEMENT BINDING PROTEIN 2A)在植物非生物胁迫耐性中发挥重要作用。
近年来,随着社会节奏的加快和生活压力的增加,精神疾病患者的数量在逐年增加。精神分裂症是最常见的精神疾病之一,但是精神分裂症患者的诊断却是医学界的一个难点。目前,精神分裂症主要是依靠神经科医生的主观经验和患者的临床量表来诊断,但这给神经科医生带来了巨大的工作量,并且存在大量的漏诊和错诊。因此,本文采用磁共振图像与机器学习、深度学习相结合的方法,实现对精神分裂症患者的诊断与分类,辅助临床诊断。本文的主
少模长周期光纤光栅(FM-LPFG)是近年来广受关注的新型长周期光纤光栅结构。它既具有单模长周期光纤光栅(SM-LPFG)质量轻、体积小、不受电磁干扰等优点,又兼有少模光纤(FMF)的模式数目有限、低模间串扰和大基模模场面积等优点,因而在通信、传感和器件制造等方向都能得到良好的应用。本课题选择FM-LPFG的结构设计及其应用研究为题,重点研究了各类FM-LPFG传感器和模式过滤器与滤波器等通信器件
近年来,随着我国现代化医院的建设和医院后勤服务社会化改革步伐的加快,以及患者多样化需求的增长、周边市场的兴起,A医院自营便利店在时代的浪潮下举步维艰,亟需做出改变。中国共产党第十九届五中全会也提出,健全基本公共服务体系,不断增强人民群众获得感、幸福感、安全感,全面推进健康中国建设。在此背景下,迫切需要转型的A医院自营便利店,应适应这个时代,把握机遇,提升自己,加强满意度调查与研究,将有限资源效用最
温度和组分浓度演化过程的精准测量在热工过程中扮演着重要角色。激光吸收光谱技术是一种高灵敏度、非侵入式、高选择性的测量技术,可以快速、准确测量高温流场中温度和组分浓度演化过程。激波管可以在一段时间内(1–3 ms)营造“恒定”的高温环境,为高温测量、高温光谱学、高温反应动力学的研究提供理想环境。本文结合激光吸收光谱技术和激波管技术,测量反射激波后碳氢燃料反应过程中温度、CO和CO2浓度演化过程。主要
伴随超硬材料和轻金属及合金等新材料的大量使用,“绿色”成型和高效加工已成为制造业中常态化的应用手段。为此,防护膜在质量和性能方面的改善和提高也愈来愈受到人们的关注。过渡金属氮化物膜层因其组织结构和性能的特点,在此充当着重要角色。向以Ti N为代表的二元氮化物膜系中引入第三种或多种元素来改善其质量和性能是该领域中的研究热点之一。本项工作以Ti N为基膜通过分别加入Al、Si元素,在高速钢表面利用物理