【摘 要】
:
日志记录了系统事件,系统运维人员可以通过日志来了解和优化系统行为。通过模板挖掘生成日志事件、并实现日志分类的方式近年来被广泛研究,其中基于聚类进行日志模板挖掘的方法成为主流。目前大多数聚类方式都依赖于人工预先设定聚类数目k,在真实的生产工作中是很难实现且极不方便的;而不需预先设定k值的方法大多聚类规则较简单,效果不够理想。针对以上问题,本文设计并实现了基于模板挖掘的日志分类方法。方法分为两个过程。
论文部分内容阅读
日志记录了系统事件,系统运维人员可以通过日志来了解和优化系统行为。通过模板挖掘生成日志事件、并实现日志分类的方式近年来被广泛研究,其中基于聚类进行日志模板挖掘的方法成为主流。目前大多数聚类方式都依赖于人工预先设定聚类数目k,在真实的生产工作中是很难实现且极不方便的;而不需预先设定k值的方法大多聚类规则较简单,效果不够理想。针对以上问题,本文设计并实现了基于模板挖掘的日志分类方法。方法分为两个过程。首先基于聚类进行日志模板挖掘过程:先构建关键词词典对日志数据进行初步压缩,以提高聚类效率;之后对日志依据转移增益函数进行聚类;通过实验发现,聚类数目k与模板挖掘成功的日志在全体日志集合中所占比例呈正相关的关系,因此可以通过归一化特征判断当前聚类数目是否满足要求,通过这种方式,实现了不需人工干预即可自动完成聚类的任务。此外,设计了基于日志模板的日志分类过程,将日志模板和关键词词典共同构建日志分类模板,并将原始日志和分类模板进行匹配从而实现分类;并且设计了在线日志分类机制,以提高分类效率。本文在真实数据集上进行实验以论证本文提出的基于模板挖掘的日志分类算法的有效性。首先针对本文工作的需要设计了日志模板准确度和日志分类准确度的评价标准,实验表明,本文提出的日志模板挖掘算法有较好的准确率,且具有较高的泛化能力;同时,基于模板挖掘的日志分类算法有良好的分类效果和效率。本文还将日志模板挖掘和分类算法实现成为原型系统,由日志存取模块、日志模板挖掘模块、日志分类模块、Web服务模块组成,可以实现日志模板挖掘、日志分类、数据可视化和用户交互的功能。
其他文献
由于供电系统以及用电负荷的多样化发展,随之而来的电能质量问题也愈加复杂,导致作为广泛应用的电能治理设备——SAPF(Shunt Active Power Filter,并联型有源电力滤波器)现有技术已经不能够适用于形式多变的用电环境。基于此,本文针对单相SAPF展开研究分析,分别从主电路参数选择、谐波检测算法、电流控制方法以及实验设计过程四个方面对新型电能质量问题下的谐波抑制和无功补偿作以阐述。S
随着互联网的发展,数据复杂度飞速增长。复杂数据不仅意味着数据量增大,也意味着特征数量变多、特征和目标的属性变得复杂。如何从复杂数据中提取有效的信息,这对特征选择和回归预测的研究提出了巨大挑战。传统的特征选择方法在处理有监督的分类问题上很成熟,但是对于无监督或者回归问题还有很大的研究空间。另一方面,在回归预测算法中,集成方法和划分“场景”建模已经得到广泛的应用。本文的工作集中在特征选择以及回归算法的
目的通过观察丹参酮ⅡⅡa(Tanshinone ⅡA,TSA)对新生大鼠缺氧缺血性脑损伤(Hypoxic Ischemic Brain Damage,HIBD)低氧诱导因子-1 α(Hypoxia-Inducible Factor-1 α,HIF-1
近年来,在复杂图像内容中如何有效地检索出所需要的目标图像已经成为了一个亟需解决的问题:(1)当前图像检索通常针对整体图像来提取图像的底层特征,而较少考虑图像局部的感兴
目的:研究硫化氢对顺铂导致的肝脏损伤的影响,及其发挥肝细胞保护作用的分子机制。方法:以NaHS为硫化氢供体,小鼠按5.6mg/kg每日连续腹腔注射,第4天时单次腹腔注射顺铂(12mg/
2014年资本市场再度兴起后,定增市场融资规模骤升,一方面是资本市场复苏后资源配置的需要,另一方面是定向增发相比其他股权再融资方式具有优势。但是,定向增发火爆的背后却存
烟草叶片成熟衰老特性与烟叶品质密切相关。论文以田间成熟落黄表现不同的豫烟10号、云烟87、K326和NC89为材料,研究了在相同的种植管理条件下,不同品种中部叶生长发育过程中成熟衰老特征、碳氮代谢指标、内源激素含量和相关基因表达量变化,以期为调控烟叶衰老进程,选育具有适宜衰老特性的品种提供依据。主要研究结果如下:对四个品种中部叶成熟衰老特征比较发现,品种间质体色素降解、落黄衰老进程有较大差异。豫烟
平面设计已经深入我们的生活,个人网站、博客、PowerPoint等的广泛应用其实使得平面设计不再是设计师的专职工作,而是没有受过设计训练的普通人也会接触到的。然而,由于很多用户并不具备必要的设计知识和审美能力,造成了设计质量的良莠不齐。如何为新手用户的平面设计活动提供帮助,降低设计门槛,提高设计质量显得格外重要。版式设计是网页等平面设计中的重要领域,现有的版式自动生成或优化方法,大多是生硬地套用传
近年来,在实施创新驱动发展战略的背景下,国内的高新技术企业研发投资(Research and development,简称R&D)水平呈高速增长的态势,但仍远低于发达国家水平,其中一个重要的原因是融资受限。为了缓解企业融资困难,提高R&D活动水平,国资委在2006年底颁布的《中央企业负责人经营业绩考核暂行办法》中鼓励中央企业使用经济增加值(Economic Value Added,
近年来,物联网(Io T)技术不断发展,已经广泛应用于交通管理、物流运输、图书管理和医疗环境等领域,在给人们带来高效和便捷的同时,其面临的安全和隐私问题也不容小觑。射频识别(RFID)技术作为物联网感知层的核心技术之一,依靠射频信号完成特定对象的自动识别,可以迅速地进行对象位置追踪和数据交换。为了实现RFID的身份认证等功能,确保敏感数据的隐私性,学者们给予了高度的重视。但是由于RFID系统环境的