论文部分内容阅读
随着云计算的不断发展和成熟,越来越多的业务系统被部署到云平台上以提高硬件资源利用率和降低IT运营成本。虚拟机是云平台的核心部件,负责为业务系统提供计算和存储资源,从而保证业务系统的正常运行。然而,随着业务系统种类和数量的不断增多,云平台的规模不断扩大,云平台变得日益复杂,而且云平台上的虚拟机共享硬件资源,会引起资源竞争等问题,这些使得虚拟机在运行过程中容易出现异常。虚拟机异常的存在不仅会导致业务系统无法正常运行,造成各种难以估量的损失;而且会引发企业对云计算的担忧,阻碍云计算的发展和应用。面向云平台的虚拟机异常行为检测通过对云平台中虚拟机运行状态的连续监测,及时发现虚拟机的异常行为,以通知云平台管理员采取必要措施,来保证虚拟机的正常运行。因此,面向云平台的虚拟机异常行为检测研究具有重要的科学意义及应用价值。本文针对云平台中虚拟机异常行为检测的若干关键问题展开研究。在对现有相关技术及研究成果的总结和深入分析基础上,提出了面向云平台的虚拟机异常行为检测框架,解决了虚拟机运行状态信息传输策略、虚拟机性能指标数据降维算法、虚拟机工作负载聚类算法以及在线异常检测机制等关键问题。具体而言,本文的主要研究内容和创新点如下:①设计了监控代理组件和异常检测组件分开部署的虚拟机异常行为检测框架,同时分析了虚拟机异常行为检测流程及虚拟机异常行为检测框架的特性。②抽象出虚拟机运行状态信息传输模型,并设计出三种虚拟机运行状态信息传输策略:自适应周期性推策略、基于窗口的事件驱动推策略以及基于窗口的混合推策略,有效地解决了传统推策略存在动态时间间隔无法感知虚拟机性能指标数据变化程度的问题以及动态阈值无法感知虚拟机性能指标数据变化趋势的问题。实验结果表明,三种虚拟机运行状态信息传输策略都能满足虚拟机运行状态信息传输模型的需求,其中基于窗口的混合推策略在数据传输次数和数据一致性两个指标上都优于现有的数据传输策略。③设计出全局感知的局部保持投影法对虚拟机性能指标数据进行降维,使得降维后的低维数据样本不仅可以保留原始数据样本的大部分方差信息,而且可以保留原始数据样本中数据之间的近邻信息。实验结果表明,全局感知的局部保持投影法不仅可以提高异常检测性能,而且有效地降低了平均计算时间开销,满足在线异常检测机制的实时性要求。④提出增量式虚拟机工作负载聚类算法,将具有相似虚拟机工作负载的虚拟机运行状态信息划分到同一簇,达到提高异常检测性能的目的。实验结果表明,增量式虚拟机工作负载聚类算法不仅提高了异常检测性能,而且大大降低了计算量,从而减少平均计算时间开销。⑤提出基于增量局部异常因子算法的在线异常检测机制,采用增量局部异常因子算法只更新簇内受影响的虚拟机运行状态信息的局部异常因子值,达到降低计算复杂度的目的。实验结果验证了其性能优势。