大规模日志事件解析性能提升方法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:chyenu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术愈发成熟,使得利用现有的大量设备进行快速的日志分析工作成为可能。几乎所有的计算系统的运行状态、环境变化、配置修改和错误等信息记录到某种事件日志中。日志事件可以帮助系统、网络和安全分析人员识别计算基础设施的健康状况或操作状态。然而,原始的日志消息是非结构化的,这种非结构化日志需要通过日志解析技术转变为结构化日志,才能应用于基于机器学习的日志分析。目前日志存在规模大、结构复杂、解析困难等问题,给日志分析工作带来极大挑战。为了提升日志解析的整体准确度,加快解析过程,本文的主要研究内容如下:(1)结合系统日志文本特点,研究细粒度日志导致整体解析准确度不高的问题,提出了一个结合日志的常量令牌特征的决策树日志解析模型(CLDT)。该模型能够充分挖掘日志的相似结构以提取事件模板。实验采用开源日志集进行了测试。实验结果表明,CLDT能有效地解决细粒度日志分类的问题,F-mesure和准确度在三种数据集解析中获得了较大的提升,并且在不同规模数据集中具有良好稳定性和执行效率。(2)将CLDT日志解析方法通过异常检测验证后续日志分析的合理性。针对结构化日志数据进行特征提取,生成特征矩阵,并利用决策树方法对异常日志序列进行判别正常或异常。比较了各解析算法在异常检测中获得的真实报告和误报率。实验表明CLDT方法能帮助检测出更多异常并降低了误报率。(3)针对传统的日志解析方法无法满足大规模数据的处理,在日志解析方法基础上,提出并行化日志解析策略,加快解析速度。利用弹性分布式数据集RDD的一系列转换和执行实现了基于Spark平台下并行化的CLDT算法。实验部分验证对单机运行和并行化的准确度和运行效率做了比较,结果表明Spark平台下的并行化CLDT算法保持了稳定的解析质量,且算法执行效率显著提高。
其他文献
自冷战结束以来,国际局势总体趋向缓和,相互依赖的权力结构和市场化的价格机制也逐步渗透到了能源领域。在全球一体化的能源体系下,渐趋一致的经济利益使得当今主要资源国都拥有相似的安全目标和政策倾向。然而,从具体的政策实践看,传统和新兴的能源输出国对国家资源的把控力度呈现明显的差异,为何会出现这样的局面?传统的物质——理性主义视角将类似的问题聚焦于地缘权力、经济激励、利益刺激等物质现象的解释。本文基于建构
为产业发展赋能,为藏区新生活充电。国网四川成都供电公司尽锐出战,坚决兑现"决不让一个少数民族,一个地区掉队"的庄严承诺,持续8年攻克石渠县、甘孜县的贫困堡垒,向党中央和
现代农业生产中,农药的使用对于保证和促进粮食产量起到至关重要的作用。然而,传统农药剂型受限于农药本身性质,利用率极低,真正发挥作用的仅有0.1%。大量的农药流失到自然环境中,造成严重的生态污染。相反,控释农药技术可以有效延长药效、避免农药过量施用,提高农药利用率,从而减少对环境的污染。虽然天然高分子具有环境友好、可降解、可再生的优点,但是,作为药物载体,其孔径大小分布不均,且在土壤中容易被微生物分
现代移动通信设备已经发展成为功能强大且用途广泛的计算平台,同时大量设备构建的感知网络能够实现信息快速的获取和交互。在这样的背景下,移动群智感知网络应运而生。群智感
目的:近年来研究发现micro RNAs的异常表达与肝脏脂肪代谢紊乱密切相关,利拉鲁肽可明显改善非酒精性脂肪肝(NAFLD)的肝脏脂肪变性和脂肪代谢紊乱,然而micro RNAs在利拉鲁肽改善NAFLD中的作用尚未阐明。因此本文欲探索miR379在利拉鲁肽改善NAFLD中的作用及其调节机制。方法:1、6周龄C57BL/6J雄性小鼠,除对照组外,其余各组高脂喂养2周后,链脲佐菌素腹腔注射建立糖尿病相
随着信息技术的发展,在科学研究、工程实践和金融业等计算领域产生了大规模海量的数据。处理这些领域的数据需求的计算能力大大超出了传统计算机架构所能提供的计算能力。云计算通过聚集大量廉价的计算机组成计算机集群,并借助虚拟化技术和分布式系统软件,来达到复杂的计算能力。云计算提供商如亚马逊云、阿里云等,通常以虚拟机的形式向用户提供云服务。用户根据需要向云计算提供商请求指定配置的虚拟机,并支付相应的费用,来获
人工耳蜗预弯电极植入是目前治疗听力障碍最成功的医疗手段,但由于耳蜗结构复杂,预弯电极结构脆弱,植入过程中易造成电极损坏与耳蜗损伤。机器人植入人工耳蜗预弯电极具有精
随着人工智能产业的兴起对机器人的智能化提出了更高的要求,其中基于视觉的同步定位和建图(Simultaneous Localization and Mapping,SLAM)技术,具有获取信息丰富、成本较低等特点逐渐广泛应用在服务机器人、自动驾驶、VR(Virtual Reality)等领域。目前视觉SLAM主要有特征点法、直接法等,但均存在自身的局限性。特征点法主要利用图像中的点特征来进行位姿估计
云计算为大规模并行任务提供了便利的平台,如何实现云资源的公平共享以保障用户的服务质量,一直是云计算领域研究的热点问题。由于大多数用户都限制其任务只能在满足要求等级的服务器上执行,即用户与服务器存在等级约束关系,使得实现等级约束下的云资源公平分配更具有挑战性。通过分析目前的公平策略,只有普通约束的TSF(Task Share Fairness)策略对任务份额做最大最小公平分配满足约束公平的四个特性,
农业技术推广是将农业科学技术转化为农业生产力的重要媒介,是推动农业生产进步、提高农业劳动生产率的重要手段。然而,只有让农业科学技术的接受者更好地掌握和实际应用相关技术,才能实现农业技术向农业生产力的现实转变。同时,只有真正满足农户需求的农业生产技术,才会获得农户的青睐,也才能强化农户对农业生产技术的实际运用,进而提高农业生产力,促进农业发展。因此,了解农户对农业技术推广服务的实际需求,进而采取有针