一种基于Spark的日志收集与数据服务集成框架及实现

来源 :武汉大学 | 被引量 : 0次 | 上传用户:wtxsing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志是对大规模应用软件进行故障诊断的有效途径以及重要手段。然而,日志研究领域面临几个主要挑战,首先由于日志数据量巨大以及分布零散等问题会导致用户获取日志数据困难;其次日志数据格式多样化会导致用户读取日志数据困难,并且大量日志数据中有价值的信息被忽略,无法被用户充分地利用;最后日志数据存储不规范会造成存储资源的大量浪费。针对以上问题,本文提出了一种基于Spark的日志收集与数据服务集成框架LCSF,该框架分为日志数据收集,预处理,存储,查询四个模块:(1)在日志数据收集模块中,提出一种可扩展的分布式的日志收集策略,对实时数据流进行收集,把分布零散、数据量巨大的原始日志数据统一收集起来,该分布式收集策略具有可扩展性,可以满足不断增加的大数据量日志数据以及不断增多的日志数据源的需求。(2)在日志数据预处理模块中,基于Spark平台,将日志数据分片批处理,对日志数据进行过滤、去重、分片,实现从海量且多样化的日志数据中,实时处理用户所需要的日志数据。(3)在日志数据存储模块中,提出一种基于访问频率的多层次的数据存储模型,该模型将关系型数据库与非关系型数据库相结合,根据访问频率的不同将日志数据分类存储,并且将不同类型的日志数据分别存储在不同的服务器集群中,解决了日志大数据多样化,异构等问题,可以有效地管理各种类型日志数据,避免了空闲数据存储造成的资源浪费,使日志数据存储性能得到极大提升。(4)在日志数据查询模块中,基于Solr的高速检索,通过服务接口将日志数据中所蕴含的信息快速向用户展示出来,提高了用户利用日志数据进行后续分析工作的效率,满足用户的多样化需求。根据上述提出的日志收集与数据服务集成框架,提出了一种基于Spark的收集与数据服务集成框架的技术实现,利用可扩展的分布式收集策略以及基于访问频率的多层次日志数据存储来实现安全可靠的日志数据收集存取,通过Spark Streaming来实现实时高效的日志处理,最后利用Solr来实现动态可配置的日志数据查询服务。
其他文献
数据库是人类对于信息管理的一个重要的发明。随着信息化技术的发展,互联网产生了数据量庞大的,类型多样的数据。存储和管理这些复杂多样的数据变成了一个极大的挑战。基于关
PT对称的概念来源于量子力学。由于PT对称系统的本征值可以全部为实数,这打破了可观测物理量对算符厄米性的要求从而使得PT对称引发了大量的研究热点。在光学中,傍轴近似下的
本论文中,报道了一个简单而有效的配体触发的静电自组装方法,制备了一系列CdS纳米片/Au复合纳米材料(Au-CdSNS)。利用Au纳米粒子表面的正电荷及CdS纳米片表面的负电荷,经过静
贵金属纳米催化剂的性能与其表面元素组成与分布、界面处物质及能量流动等因素密切相关。对于众多发生在表界面处的催化反应,表界面结构的科学调控被认为是提高贵金属纳米材
随着万物互联时代的到来,各种互联业务不断涌现,用户对无线通信系统中的传输速率和容量需求日益增长。带内全双工(IBFD)通信可以在同一频带内同时支持双向射频信号传输。对比
差分码偏差(DCB,包括卫星DCB和接收机DCB)既是GNSS提取高精度电离层TEC估计值的重要误差源,又是衡量接收机硬件性能的重要指标,同时对定位和授时具有显著影响。目前接收机差分码偏差的研究仍局限于美国GPS及俄罗斯GLONASS,且已发布的接收机DCB产品种类偏少,难以满足当前GNSS应用对多模多类型接收机DCB的需求。随着美国GPS、俄罗斯GLONASS系统的不断现代化以及欧盟GALILE
随着我国经济的快速发展,人们生活水平得到提高和改善,网球运动愈发受到人们的广泛关注和青睐,越来越多的青少年开始加入网球训练当中。本文对杭州、宁波、温州三地的青少年
在推荐系统中,用户和物品是两个核心的实体。在社会化推荐领域,标签是除了用户和物品之外的另一个重要的实体。标签在社会化推荐系统中帮助用户有效地描述、分类和导航各种各
作为最具吸引力的二维材料,石墨烯在紫外到太赫兹波段范围的光子学研究中受到了广泛的关注,并推动了高等光学从纳米光子学到埃光子学的发展。石墨烯是一种由蜂窝状有序排列的
随着工业文明的发展,全球环境问题日益严峻。CO2是导致气候变化的温室气体中对升温影响最大的气体;为保证可持续发展,CO2的封存和转化是当今世界急需解决的重要问题。近年来,