论文部分内容阅读
随着全球信息化快速发展,网络规模日益庞大,IT系统的安全、高效、高质量运维成为业界关注和研究的热点。近年来随着机器学习技术发展,将人工智能与IT 运维相结合,出现了智能运维 AIOps(Artificial Intelligence for IT Operations)技术。本文主要研究了 AIOps框架下的两大问题,即KPI(Key Performance Indicators,关键性能指标)异常检测和IT运维故障分析,并在此基础上设计和实现了 AIOps智能运维系统。本文的具体工作如下:(1)针对KPI异常检测技术的研究,本文分析了智能运维场景下KPI指标的特点,设计了 KPI智能异常检测模块总体框架;采集KPI指标,从多个层面提取不同的特征,通过采用SMOTE过采样与随机欠采样相结合的方法对不平衡数据集进行平衡以及采用Z-Score方法对提取的特征进行标准化处理,运用于KPI异常检测模型中;本文选用BP神经网络作为KPI异常检测训练模型,尝试不同网络选出最优结构,通过特征筛选实验减少冗余特征,提升模型的性能;接着本文分析BP神经网络的缺陷,从优化权值初始化和优化梯度下降两个方面对算法进行改进和实验分析,并应用于提出的集成KPI异常检测模型中,进一步改善模型性能。(2)针对IT运维故障分析技术的研究,本文分析了运维故障特点,设计了故障分析模块总体框架;选用支持向量机构建故障分析模型,对支持向量机的核函数种类进行筛选实验,选定了合适的核函数;本文利用网格搜索方法对支持向量机的参数进行基本确定,并绘制了热力图,在此基础上提出了改进模拟退火算法并进行了实验,提升了故障分析模型的性能。(3)本文设计并实现了 AIOps智能运维系统。首先对AIOps智能运维系统的需求进行分析;根据系统需求设计了系统的总体架构、系统功能框架以及系统数据库;最终详细实现了系统各功能模块并给出实现结果。