基于Apache Flume 的大数据日志收集系统

来源 :中国新通信 | 被引量 : 0次 | 上传用户:whhdgcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 在信息化及大数据时代下,各种应用程序的分散及生成的日志信息成爆炸式增长,怎么有效的收集这些日志,并对它进行在线和离线分析,已经成为这领域的热点。我们在现有的Apache Flume、Hadoop等框架下,设计实现了一种大数据日志收集系统。
  【关键词】 Apache Flume 日志收集 Hadoop
  大数据及互联网时代下,为了更有效的管理各种应用和系统程序的运行,通过收集它们的日志信息,进行离线和在线分析,来了解它们的运行和安全情况。在信息化及大数据下,分布式系统用的越来越多,日志的存储路径及分布情况越来越多。为了能更好的聚集存储分析这些分布式日志,本文基于开源的Apache Flume 、Hadoop 框架下,设计实现了一种大数据分布式的日志收集系统,并将收集的日志用于监控分析。
  一、 Flume
  Flume 是一种开源的分布式日志管理架构,它可以将日志聚集,有可用性高、性能高、事务管理、失败重启等功能。将各个分布式系统上的日志源聚集到一个存储上,方便日志的统一的分析和处理。数据处理速度快,完全可以用于生产环境[4]。 Flume的核心是agent :(1)agent是一个java进程,运行在日志收集端,通过agent接收日志,然后暂存起来,再发送到目的地;(2)agent里面包含3个核心组件:source、channel、sink。source 组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,source组件把数据收集来以后,临时存放在channel中。channel 组件是在agent中专用于临时存储数据的,channel中的数据只有在sink发送成功之后才会被删除。sink 组件是用于把数据发送到目的地的组件,目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义。在整个数据传输过程中,流动的是event。事务保证是在event级别。flume可以支持多级flume的agent,支持扇入(fan-in)、扇出(fan-out)。
  二、Morphline
  Morphline是由flume的母公司Cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行 ETL的流式处理程序,流程图如图2。Morphline用简单的配置步骤代替了Java编程。


  三、日志收集系统的实现
  1、Linux系统及应用日志的收集处理。首先我们配置Linux系统下的rsyslog文件实现日志的外发,通过udp或tcp等协议将日志信息通过设定的端口发到所指定IP地址的机器上。然后在安裝有flume的机器上,修改配置文件,设定source 类型为syslogudp或syslogtcp、端口与外发端口对应。设置channel的类型,这里常用的主要有filechannel和memorychannel两种类型,memorychannel具有高的吞吐量,持久化却比较低,而filechannel提供了这种持久化,保证了数据处理的可靠性,但是读写速度较慢,我们这里选取memorychannel。最后通过sink 将日志存储到目的地。这里我们分为两种存储外发方式,一种用于离线分析存储到Hadoop下的分布式文件系统(HDFS),它具有容错性高、可扩展、吞吐量高等特征;另一种用于实时数据分析处理,将它发送到Kafka上,通过Storm收集及处理分析数据。在这里为了处理的方便,我们利用morphline对日志进行了格式化处理,message域中采用正则表达式进行格式化处理。
  2、Windows系统日志的收集收集处理。由于Windows自身系统没有转发功能,我们需要安装一个agent。我们利用agent把Windows的各类日志转变成syslog日志,最后通过相应的协议转发到服务器端。Evtsys用C语言开发的,它可以将Windows相应的日志发送到syslog服务器。由于它的高效、快速、轻量等特点,常常被一些高负载的服务器所设计利用。并可以作为Windows服务存在。我们通过安装Evtsys工具来实现window系统下日志的外发,通过在命令行中开启命令就可以在接收端通过flume接收日志进行存储,设置如(1)。
  3、其他软件平台日志的收集收集处理。其他软件平台的日志通过安装相应的agent,设置agent的外发配置实现flume端的接收收集存储。
  结论:基于现有日志收集方案下,通过开源软件Flume设计实现一种分布式多平台多系统收集多种日志的系统。本系统具有高吞吐量、可扩展性强、高聚合等特征,还通过morphine将message域进行分割便于提取有关信息,实现日志的集中存储,方便数据的分析,同时为实时和离线数据分析提供数据。
  参 考 文 献
  [1] 詹玲,马骏,陈伯江,陈维梁,吕睿.分布式I/O日志收集系统的设计与实现[J]. 计算机工程与应用. 2010(36)
  [2] 宋爱青.基于Hadoop的日志分析系统的设计与实现[D]. 中国地质大学(北京) 2012
  [3] 孙寅林.基于分布式计算平台的海量日志分析系统的设计与实现[D]. 西安电子科技大学 2012
  [4] Apache Flume. http://flume.apache.org/ .
  [5]Morphline.http://kitesdk.org/
其他文献
摘 要:教学团队建设是提高高校教学质量的重要举措,高校教学团队建设具有重要意义。本文就近年来高等院校的教学过程进行重点性分析,从目前存在的弊端进行着笔,着重对负责人、团队建设等内容进行了切实的解析,对于我国高等学校的教学团队建设具有实质性的意义。  关键词:高校 教学团队 建设策略  中图分类号:G6 文献标识码:A 文章编号:1673-9795(2013)04(a)-0239-01  创建和打造
本文从VoWiFi的协同策略分析八手,分析了VOW㈣与VoLTE协同关键技术,并对VoWiFi的发展机遇进行了展望。
摘 要:传统的教学目标是培养学生的“双基”,即基本知识和基本技能。许多教师对学生学习兴趣的培养不太重视,这给高中数学教学带来了一定的困难,使得学生的成绩总是不理想,同时也给学生的其他学科的深入学习和提高带来了障碍。如何改变这种现状,使得数学教学呈现出“良性循环”的态势,达到事半功倍的效果呢?以下谈谈我的教学经验。  关键词:高中数学 教学创新 兴趣培养  中图分类号:G633.6 文献标识码:A
【摘要】 为解决社会现状局限通信方式所带来的麻烦,构建全新的人际网络,并与互联网、云计算、大数据充分融合,推出在娱乐、生活、学习等方面的全新用户体验。本文提出一种零距离交流的全息模拟通信系统,通过云端实现通信的全样本、全时空、全过程的感知与呈现。让你置身于不同的场景,让对方360°无死角地观看,实现不同场景的同空间化,达到零距离交流的目的。  【关键词】 全新用户体验 全息模拟 全方位感知 同空间
【摘要】 由于大功率短波发射机工作环境的特殊性,高频信号极容易对弱电信号产生干扰,造成错误指令,影响整个系统的运行,抗干扰设计在发射机自动调谐系统中至关重要。  【关键字】 高频 大功率短波发射机 抗干扰  电磁干扰(Electromagnetic Interference,EMI)是干扰电缆信号并降低信号完好性的电子噪音,EMI通常由电磁辐射发生源(干扰源)产生,是干扰源把一个电网络上的信号耦合
【摘要】 文中首先分析了高速铁路电力系统的重要性与电力系统可靠性,其次提出提高电力系统可靠性的措施 ,并对高速铁路电力供电系统新技术做出分析与研究。  【关键词】 高速铁路 电力系统 分析  一、高速铁路电力系统的重要性  对于高速铁路来说,电力系统的安全性涉及到整个铁路的运行平稳与否,在铁路运营繁荣发展的背后支持下,电力系统起到了很大的作用,目前,铁路运行速度非常快,工程规模的不断变化也对供电系
摘 要:我校在新课改的浪潮下推出了“师生成长共同体”的教育模式,旨在提高教学质量,激发学生的学习兴趣,改变师生关系是焦点,通过互动,重建和谐的、民主的、平等的师生关系是体育与健康课教学改革的重要任务。传统的教师教和学生学,将改进为师生互教互学,彼此间将形成一个真正的“师生成长共同体”。  关键词:平等 民主 主体 “师生成长共同体” 构建  中图分类号:G420 文献标识码:A 文章编号:1673
今年高考全国理科综合物理试题仍然保持近两年的特点,但稳中求变,更加突出以"能力立意"和"现实生活立意"的命题思想。试题难度虽然略有下降,但突出了学科内综合,立意新颖、设计独
摘 要:本文从心理学角度分析了90后大学生心理与行为问题的主要形式,并从生理学、社会性及心理因素三方面对问题产生原因进行分析。  关键词:大学生 心理与行为问题 原因  中图分类号:G420 文献标识码:A 文章编号:1673-9795(2013)03(a)-0247-01  心理的社会延缓偿付期给90后的大学生带来了生理和心理上发展的不平衡,这种不平衡带来了一定的心理与行为问题。当代大学生心理不
新课程背景下,思想政治课教学与以往相比取得了较大进步,但仍存在一些亟待解决的问题。罗杰斯的人本主义教育思想对当今教学具有启发意义,自由学习观作为其教育思想的重要组成部