基于Hadoop的日志分析系统的设计与实现

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:fcfy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得web成为了最大的信息系统,使得web日志也在快速的增长。然而如何在这些海量的web日志中找出对企业有价值的信息,是多数企业目前面临的问题。使用单台主机对日志进行存储或计算已经满足不了目前的需求了。因此采用分布式存储和计算成为了必然的发展趋势。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。Hadoop的核心技术包括HDFS(分布式文件系统)和Map/Reduce(分布式计算框架)。在HDFS中,文件被分成若干个相同大小的文件块,分别存储在集群中的不同的节点上,适合于存储海量的日志文件。Map/Reduce是Hadoop提供的针对于大规模集群海量数据处理的分布式编程模型。通过这个编程模型,可以较方便的编写处理大量日志文件的程序代码。本文就是基于Hadoop实现了一个日志存储和计算的数据处理系统。通过对目前企业在日志处理方面出现的问题的分析,利用Hadoop提供的HDFS和Map/Reduce两个核心的技术,实现了一个开放式的报表系统。主要包括日志的收集和存储、后台的统计程序以及前端的用户界面。该系统在日志的收集、存储和处理方面较之前的处理方案都有很大的改进,在系统中,用户可以自定义的配置数据表,这样增加了报表的可定制性。工程师只需要对该系统进行维护,并不需要直接面对数据需求方提出的各种繁琐的需求,这不仅减少了工作量还提高了工作效率。
其他文献
伴随经济的发展,近十年来,越来越多的企业乃至政府开始认识到顾客满意的重要性,并投入大量的人力、物力、财力来进行顾客满意度的调查研究。同时,经过大量的研究发现,顾客满
无线通信需求的飞速发展与频谱资源的日益稀缺这一对矛盾必然使认知无线电技术成为未来通信网络关键技术之一,因此认知无线电技术具有非常广阔研究和应用前景。然而在认知无
近年来食品安全问题时有发生,使得社会公众对食品安全引起严重质疑;我国食品行业的发展相较于世界食品行业尚有较大差距;而中粮集团作为我国国内最大的农产品加工和食品生产的
自2006年中共中央十六届六中全会提出“建设宏大的社会工作人才队伍”以来,中国大陆的社会工作实务在珠三角地区(尤其是广东省深圳市)获得了迅速发展。企业社会工作实务领域
政务接待工作是各级党政机关日常工作不可缺少的一部分,对于促进各地区经济文化交流与建设有着积极的作用。然而,由于政务接待流程设置不科学,政务接待中支出混乱、范围过大及协
本计划书从介绍本论文选题背景与意义及公司基本情况开始,介绍了ZS公司太阳能取暖器项目的背景和意义,并简单回顾了国内外研究文献,在此基础上,对ZS公司太阳能取暖器项目进行
研究目的本研究旨在探讨护理硕士研究生职业生涯规划的状况以及择业影响因素,掌握应用SWOT分析法清楚自己择业面临的优势、劣势、机会与威胁,从而准确评估自己,合理的职业定位,科
本文以中华书局1999年简体横排增补本《全宋词》为考察对象,对《全宋词》辑佚、校勘、考证等具体情况逐人、逐首、逐句的进行数量统计,据此对《全宋词》利用宋代笔记的具体情况
背景:2型糖尿病是一种代谢性疾病,而且近年来发病率越来越高。肥胖是糖尿病的主要病因之一,能增加许多其它疾病比如动脉粥样硬化、非酒精性肝脏疾病和一些癌症的风险。某些其
随着经济的不断发展,我国已进入工业化发展的中后期阶段,对大量初级产品的需求已致使我国成为多种大宗商品的净进口国,例如我国是全球第一大铁矿石进口国、第一大大豆进口国