云操作系统日志流实时挖掘机器学习算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:darkage12223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,计算机系统变得越来越复杂,软件和硬件之间的交互更加频繁。云操作系统已经越来越流行,但由于其庞大的规模和高度的复杂性,云操作系统运行时,更容易出现各种各样的问题。因此,如何保障可靠性,已经成为系统设计和管理中的一个重要问题。在现代大规模分布式系统的管理中,系统日志一直是检测系统状态的主要来源。系统运行产生的大量日志记录,其中控制台日志通常是系统管理员排除故障的主要信息来源。由于现代系统的规模性与日俱增,复杂性不断提高,各种组件将生成大量的日志信息,包括运行报告和错误信息。这些日志信息在系统运行时迅速产生,不断增长,系统管理员通过直接使用人工方法对大量日志进行分析是一个巨大挑战。为了能更加有效地从系统日志数据中挖掘有价值的知识和规律,研究者结合使用机器学习算法、统计学等技术,提出使用数据挖掘方法解决这一难题。而机器学习算法是数据挖掘的主要内容,也是各学科研究的重要工具。基于上述背景,本文主要运用机器学习算法,尤其是聚类算法,设计并实现了基于云操作系统的智能故障检测定位系统。通过分析系统框架源代码,结合控制台日志管理模式,提取消息模板,以及故障分类模板。首先对日志流实时预处理,流程建模、模式匹配和统计分组、提取特征向量矩阵,然后运用PCA进行异常检测,最后使用S-Kmeans聚类算法进行故障分类。该智能故障检测定位系统可以帮助系统管理员了解云操作系统的实时状态,将日志划分为不同的故障类型,并确定故障的根本原因。本文所提出的方法在虚拟的云平台Apache Hadoop集群上进行了测试。实验结果表明,根据所提出的S-Kmeans聚类算法与主成分分析法相结合对故障检测以及定位准确率可以达到98%以上。本文的创新点如下:1.本文首先建立故障分类模板,然后运用机器学习算法实时故障检测定位,大大提高检测效率。2.本文提出一种S-Kmeans聚类算法用于对日志数据进行实时挖掘,首先通过主成分分析算法对异常特征向量进行提取,缩小故障范围,然后运用S-Kmeans聚类算法实时对故障定位。使得故障分类效率大大提高。
其他文献
唐三彩是唐代艺术的一个重要代表,也是学术界研究的热点之一。随着建国后唐代三彩窑址的发现以及大量唐代墓葬中出土了三彩器,唐代三彩器相关的问题引起了国内外学界的广泛关
目的:减少老年性白内障超声乳化术后的并发症。方法:对897例957眼老年性白内障手术病人加强术前心理护理和宣教,术中配合,术后角膜观察、作好专科护理及出院指导。结果:297眼
天然气地下储气库具有优化供气系统、减少干线和压气站投资、季节用气调峰、事故应急、战略储备等优点.大庆喇嘛甸地下储气库是在一个带油环气顶上建设的,是我国投产最早的地
涉外动产物权的法律适用问题不仅是冲突法的重要内容,也是国际私法领域上的重大课题。伴随着经济的发展,动产跨国流动更加频繁,一旦发生纠纷就可能涉及到多国法律。由于各国
目前一些小型的分布式光伏发电项目大多采用就地分布式接入用户配电网,既降低了投资成本,提高了能源利用率,又有助于推动节能减排。结合某小区屋顶光伏项目的实施,对分布式光
大学生志愿服务具有导向功能、凝聚功能、激励功能以及调节功能,要求明确服务目标,坚定学生信念,构建激励机制,完善管理体系,可以通过大学生志愿服务与思想政治理论课相结合
“双拥运动”是中共在晋察冀边区生存条件极端困苦情势下组织开展的群众运动.从一开始,运动目标就很明确,就是消除党政军民逐渐分化的利益观念,重新建立起稳固的依存关系,使
目的:探讨产前护理干预对产后抑郁症的预防作用。方法:250例初产妇分为2组,对照组采用常规产前护理;观察组由专业护士(均为产科工作10年以上)进行评估,产前实施系统、全面的
为加强对特殊重点学生的关注,学生工作处组织开展了对录取分较低的专科学生的全面调查,目的在于深入了解他们的学习情况、生活情况,查找存在的问题,为学校学生教育管理提供参
地下储气库是天然气管道输送系统的重要组成部分.随着西气东输工程的启动,我国地下储气库的建设必将有一个大的发展,而首先面对的关键问题便是储气库库址的选型.概述了国内外