基于Apache Flume 的大数据日志收集系统

来源 :中国新通信 | 被引量 : 0次 | 上传用户：whhdgcr

【摘要】

：

【作者】

：

于秦

【出处】

：

中国新通信

【发表日期】

：

2016年18期

【关键词】

：

APACHE FLUME 日志收集 HADOOP

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】在信息化及大数据时代下，各种应用程序的分散及生成的日志信息成爆炸式增长，怎么有效的收集这些日志，并对它进行在线和离线分析，已经成为这领域的热点。我们在现有的Apache Flume、Hadoop等框架下，设计实现了一种大数据日志收集系统。
　　【关键词】 Apache Flume 日志收集 Hadoop
　　大数据及互联网时代下，为了更有效的管理各种应用和系统程序的运行，通过收集它们的日志信息，进行离线和在线分析，来了解它们的运行和安全情况。在信息化及大数据下，分布式系统用的越来越多，日志的存储路径及分布情况越来越多。为了能更好的聚集存储分析这些分布式日志，本文基于开源的Apache Flume 、Hadoop 框架下，设计实现了一种大数据分布式的日志收集系统，并将收集的日志用于监控分析。
　　一、 Flume
　　Flume 是一种开源的分布式日志管理架构，它可以将日志聚集，有可用性高、性能高、事务管理、失败重启等功能。将各个分布式系统上的日志源聚集到一个存储上，方便日志的统一的分析和处理。数据处理速度快，完全可以用于生产环境[4]。 Flume的核心是agent ：（1）agent是一个java进程，运行在日志收集端，通过agent接收日志，然后暂存起来，再发送到目的地；（2）agent里面包含3个核心组件：source、channel、sink。source 组件是专用于收集日志的，可以处理各种类型各种格式的日志数据，source组件把数据收集来以后，临时存放在channel中。channel 组件是在agent中专用于临时存储数据的，channel中的数据只有在sink发送成功之后才会被删除。sink 组件是用于把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义。在整个数据传输过程中，流动的是event。事务保证是在event级别。flume可以支持多级flume的agent，支持扇入（fan-in）、扇出（fan-out）。
　　二、Morphline
　　Morphline是由flume的母公司Cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行 ETL的流式处理程序，流程图如图2。Morphline用简单的配置步骤代替了Java编程。

　　三、日志收集系统的实现
　　1、Linux系统及应用日志的收集处理。首先我们配置Linux系统下的rsyslog文件实现日志的外发，通过udp或tcp等协议将日志信息通过设定的端口发到所指定IP地址的机器上。然后在安裝有flume的机器上，修改配置文件，设定source 类型为syslogudp或syslogtcp、端口与外发端口对应。设置channel的类型，这里常用的主要有filechannel和memorychannel两种类型，memorychannel具有高的吞吐量，持久化却比较低，而filechannel提供了这种持久化，保证了数据处理的可靠性，但是读写速度较慢，我们这里选取memorychannel。最后通过sink 将日志存储到目的地。这里我们分为两种存储外发方式，一种用于离线分析存储到Hadoop下的分布式文件系统（HDFS），它具有容错性高、可扩展、吞吐量高等特征；另一种用于实时数据分析处理，将它发送到Kafka上，通过Storm收集及处理分析数据。在这里为了处理的方便，我们利用morphline对日志进行了格式化处理，message域中采用正则表达式进行格式化处理。
　　2、Windows系统日志的收集收集处理。由于Windows自身系统没有转发功能，我们需要安装一个agent。我们利用agent把Windows的各类日志转变成syslog日志，最后通过相应的协议转发到服务器端。Evtsys用C语言开发的，它可以将Windows相应的日志发送到syslog服务器。由于它的高效、快速、轻量等特点，常常被一些高负载的服务器所设计利用。并可以作为Windows服务存在。我们通过安装Evtsys工具来实现window系统下日志的外发，通过在命令行中开启命令就可以在接收端通过flume接收日志进行存储，设置如（1）。
　　3、其他软件平台日志的收集收集处理。其他软件平台的日志通过安装相应的agent，设置agent的外发配置实现flume端的接收收集存储。
　　结论：基于现有日志收集方案下，通过开源软件Flume设计实现一种分布式多平台多系统收集多种日志的系统。本系统具有高吞吐量、可扩展性强、高聚合等特征，还通过morphine将message域进行分割便于提取有关信息，实现日志的集中存储，方便数据的分析，同时为实时和离线数据分析提供数据。
　　参考文献
　　[1] 詹玲，马骏，陈伯江，陈维梁，吕睿.分布式I/O日志收集系统的设计与实现[J]. 计算机工程与应用. 2010（36）
　　[2] 宋爱青.基于Hadoop的日志分析系统的设计与实现[D]. 中国地质大学（北京） 2012
　　[3] 孙寅林.基于分布式计算平台的海量日志分析系统的设计与实现[D]. 西安电子科技大学 2012
　　[4] Apache Flume. http：//flume.apache.org/ .
　　[5]Morphline.http：//kitesdk.org/

其他文献

浅析高等学校教学团队的建设

摘要：教学团队建设是提高高校教学质量的重要举措，高校教学团队建设具有重要意义。本文就近年来高等院校的教学过程进行重点性分析，从目前存在的弊端进行着笔，着重对负责人、团队建设等内容进行了切实的解析，对于我国高等学校的教学团队建设具有实质性的意义。　　关键词：高校教学团队建设策略　　中图分类号：G6 文献标识码：A 文章编号：1673-9795（2013）04（a）-0239-01　　创建和打造

期刊

高校教学团队建设策略

再议高中数学的几种教学心得

摘要：传统的教学目标是培养学生的“双基”，即基本知识和基本技能。许多教师对学生学习兴趣的培养不太重视，这给高中数学教学带来了一定的困难，使得学生的成绩总是不理想，同时也给学生的其他学科的深入学习和提高带来了障碍。如何改变这种现状，使得数学教学呈现出“良性循环”的态势，达到事半功倍的效果呢？以下谈谈我的教学经验。　　关键词：高中数学教学创新兴趣培养　　中图分类号：G633.6 文献标识码：A

期刊

高中数学教学创新兴趣培养

全息模拟通信系统

【摘要】为解决社会现状局限通信方式所带来的麻烦，构建全新的人际网络，并与互联网、云计算、大数据充分融合，推出在娱乐、生活、学习等方面的全新用户体验。本文提出一种零距离交流的全息模拟通信系统，通过云端实现通信的全样本、全时空、全过程的感知与呈现。让你置身于不同的场景，让对方360°无死角地观看，实现不同场景的同空间化，达到零距离交流的目的。　　【关键词】全新用户体验全息模拟全方位感知同空间

期刊

全新用户体验全息模拟全方位感知同空间化零距离交流

PSM型150kW短波发射机自动调谐系统抗干扰性设计

【摘要】由于大功率短波发射机工作环境的特殊性，高频信号极容易对弱电信号产生干扰，造成错误指令，影响整个系统的运行，抗干扰设计在发射机自动调谐系统中至关重要。　　【关键字】高频大功率短波发射机抗干扰　　电磁干扰（Electromagnetic Interference，EMI）是干扰电缆信号并降低信号完好性的电子噪音，EMI通常由电磁辐射发生源（干扰源）产生，是干扰源把一个电网络上的信号耦合

期刊

高频大功率短波发射机抗干扰

关于高速铁路电力系统的分析与研究

【摘要】文中首先分析了高速铁路电力系统的重要性与电力系统可靠性，其次提出提高电力系统可靠性的措施，并对高速铁路电力供电系统新技术做出分析与研究。　　【关键词】高速铁路电力系统分析　　一、高速铁路电力系统的重要性　　对于高速铁路来说，电力系统的安全性涉及到整个铁路的运行平稳与否，在铁路运营繁荣发展的背后支持下，电力系统起到了很大的作用，目前，铁路运行速度非常快，工程规模的不断变化也对供电系

期刊

高速铁路电力系统分析

打造体育与健康教学“师生成长共同体”，构建和谐师生关系

摘要：我校在新课改的浪潮下推出了“师生成长共同体”的教育模式，旨在提高教学质量，激发学生的学习兴趣，改变师生关系是焦点，通过互动，重建和谐的、民主的、平等的师生关系是体育与健康课教学改革的重要任务。传统的教师教和学生学，将改进为师生互教互学，彼此间将形成一个真正的“师生成长共同体”。　　关键词：平等民主主体 “师生成长共同体” 构建　　中图分类号：G420 文献标识码：A 文章编号：1673

期刊

平等民主主体“师生成长共同体”构建

物理模型解题思维转化是关键

今年高考全国理科综合物理试题仍然保持近两年的特点,但稳中求变,更加突出以＂能力立意＂和＂现实生活立意＂的命题思想。试题难度虽然略有下降,但突出了学科内综合,立意新颖、设计独

期刊

物理现象过程物理模型思维转化

大学生常见心理与行为问题及原因浅析

摘要：本文从心理学角度分析了90后大学生心理与行为问题的主要形式，并从生理学、社会性及心理因素三方面对问题产生原因进行分析。　　关键词：大学生心理与行为问题原因　　中图分类号：G420 文献标识码：A 文章编号：1673-9795（2013）03（a）-0247-01　　心理的社会延缓偿付期给90后的大学生带来了生理和心理上发展的不平衡，这种不平衡带来了一定的心理与行为问题。当代大学生心理不

期刊

大学生心理与行为问题原因

罗杰斯的自由学习观对思想政治课教学的启示

新课程背景下，思想政治课教学与以往相比取得了较大进步，但仍存在一些亟待解决的问题。罗杰斯的人本主义教育思想对当今教学具有启发意义，自由学习观作为其教育思想的重要组成部

期刊

自由学习观思想政治课教学教学效果

基于Apache Flume 的大数据日志收集系统

其他学术论文