【摘 要】
:
日志内包含的数据具有各种用途,如用于问题定位、数据分析等。原始的日志为字符串形式,当对其进行进一步分析时,首先需要将日志模版提取出来,并获取关键位置上的数据。但目前存在的日志模版提取算法,处理日志时无法正确处理日志中的Json字段或Key-Value类型的字段,导致准确率大大降低,称带有该类型字段的日志为复合型日志。针对上述问题,本文提出一种针对复合型日志的模版自动提取算法,基于该方法设计并实现可
论文部分内容阅读
日志内包含的数据具有各种用途,如用于问题定位、数据分析等。原始的日志为字符串形式,当对其进行进一步分析时,首先需要将日志模版提取出来,并获取关键位置上的数据。但目前存在的日志模版提取算法,处理日志时无法正确处理日志中的Json字段或Key-Value类型的字段,导致准确率大大降低,称带有该类型字段的日志为复合型日志。针对上述问题,本文提出一种针对复合型日志的模版自动提取算法,基于该方法设计并实现可处理复合型日志的自动解析日志系统。具体内容如下:首先,提出针对复合型日志的模版自动提取算法。该方法改进了简单共有词算法,向算法中引入差异度以增强算法对模版中不同词语的敏感度,然后通过将日志中的特殊符号(包括空格)进行统计,把日志按统计结果分类。使用Drain的提取算法对每类日志进行模版提取,集合所有类别的模版,使用改进的共有词算法求得所有模版相互之间的相似度,设计BMerge算法对相似的模版进行融合,最终提取出模版,将所设计算法命名为CLEA(Compound-Log Extract Algorithm)。然后,基于上述算法,设计并实现可处理复合型日志的自动解析日志系统。系统分为数据采集模块、分析模块、解析模块、存储模块与监控模块,数据采集模块根据用户自定义配置接收指定端口的日志,分析模块提取日志模版,解析模块负责解析日志,最终由存储模块存入系统,提供查询接口供用户读取使用,完成日志从接收、解析到存储的完整流程,监控模块在系统运行过程中确认系统状态,保证系统正常运转。实验结果表明,CLEA对比其他算法在处理复合型日志时具有更高的准确率,同时该系统能够有效地接收并解析多种来源的日志,能够对复合型日志进行正确的分类及解析。
其他文献
由于先天性疾病、创伤以及骨炎等造成的骨组织缺损,是临床医学面临的一大难题。相比于传统的医疗手段,组织工程为治疗这类疾病提供了一个全新的思路和方法,具有广阔的发展前景。微载体可以为病变部位提供足够数量的细胞,且可以被注射于体内修复骨组织缺损,方式简单有效,是一类特殊的组织工程支架。聚丙乙交酯(PLGA)是一种应用很广的组织工程材料,具有很好的生物相容性和可降解性,但是其也存在韧性差和降解会产生酸性物
中国剪纸艺术巧夺天工,源远流长,是传统的民间工艺美术品。扬州剪纸则是其出类拔萃者之一,素以剪工精巧、清新秀丽、柔媚有力、刻画入微、题材丰富著称。2006年,扬州剪纸经国务院批准列入“第一批国家级非物质文化遗产名录”;2009年,作为中国剪纸重要组成部分入选联合国教科文组织“人类非物质文化遗产代表作名录”。本文将以扬州剪纸省级传承人熊崇荣为研究对象展开探讨,熊崇荣早年师承中国工艺美术大师张永寿学习剪
无线通信系统的快速发展使得频谱资源越发紧张,毫米波天线是未来发展的一个重要趋势。毫米波通信系统具有工作带宽大,占用体积小等显著优势,在汽车雷达,卫星导航及5G通信方面有着重要应用价值。毫米波天线作为收发电磁波的关键器件,是保障通信质量的重要组成部分。本文研究了相控阵天线技术,传输线转换及磁电偶极子天线理论,设计了工作于毫米波频段带状线馈电的宽带小型化磁电偶极子天线并将其应用到相控阵上。具体研究工作
声调一直是对外汉语教学的重难点,对于母语为无声调语言的保加利亚汉语学习者来说尤其困难。“洋腔洋调”现象存在于各国学习者之中,也都各不相同,保加利亚学习者在语流中呈现出的“洋腔洋调”问题也是独具特色的,比如受母语影响学习者常把汉语陈述句末尾字声调偏误为降调等。而目前学界对字词中声调习得偏误的研究较多,对整体句调习得偏误的研究也较多,可针对语流中声调习得具体情况的研究较少。但有研究显示,汉语语流中单字
近年来随着卫星通信的发展,为满足军用、民用领域日益增加的通信需求,我国开始关注其发展情况。通过建设星地融合低轨卫星网络,利用低轨卫星网络以及地面信关站协同工作来完成各项通信任务。本文在此背景下,搭建了由低轨卫星网络、地面控制中心、以及地面信关站组成的星地融合卫星网络,并且主要对该卫星网络路由协议进行了研究。针对目前低轨卫星网络路由协议存在的复杂度高、资源利用不充分以及实际卫星能力不足以支持星上自主