基于Spark的网络日志分析系统的设计与实现

被引量 : 0次 | 上传用户:oldbuck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网络的应用已经深入到企业办公系统中,企业业务时常需要依赖互联网来达成。通过网络,信息传播可以大幅降低工作成本并能极为明显的提高办公效能。但是随着网络给员工作事务带来便利,企业员工时常在上班时间访问-些与工作无关的网站,给企业不论是业务还是网络环境皆带来了不良的影响。因此,企业需要针对用户网络访问行为的审计系统,透过网络日志分析系统去了解用户上网行为、趋向。日志中包含了大量人们感兴趣的信息,为系统的运行和维护提供了丰富的信息,同时也记载着用户访问各种网页的数据,其通过文本的形式将系统产生的行为准确规范得记录存储。随着互联网企业的壮大以及应用程序规模的扩大,各种日志信息同时也呈数量级的增长,一般使用单台机器处理的日志分析系统早已完全无法达到目前企业日志分析的需求,因此海量数据处理集群就成为日志分析的理想平台。最初的大数据计算处理框架是Google在2003-2006年提出的,随后一个相似的开源大数据计算框架Hadoop就这样诞生了,作为一个分布式计算框架,在当时其在海量数据处理效能卓越,曾经在互联网企业掀起一波巨浪。但是单纯使用Hadoop框架仍然有很多限制,它并不能很好的支持实时分析以及多次迭代的计算场景,因此许多企业在2009年后陆续提出改良的计算框架,如Dremel、Spark等。基于以上现状,通过对大量文献的阅读和参考,以及常见的企业对于用户行为观察了解的需求,本文设计了一个基于Spark的海量日志数据分析平台。平台使用Squid服务器中的access.log,并且设计了日志采集、逻辑处理、网页展示、任务管理等四个模块。日志采集模块实现了数据的收集和导入;逻辑处理模块实现了数据分析处理的过程;网页展示模块实现了一个客户端供用户操作及处理结果的展示;任务管理模块实现了集群的监控和管理。相较于Hadoop, Spark通过内存中运算能带来大幅度性能的改善。
其他文献
幼儿期是个人成长和发展的第一个关键期,幼儿期家庭教育的成败直接关系到个人一生的发展。本文针对幼儿期家庭教育普遍存在的问题,诸如教育观念、方法、环境等方面的问题进行
本文基于2009年全国十个省份千户农民的调查数据,利用分步Logistic回归技术分析农民的养老风险及其影响因素,利用描述性统计分析和交互分析考察农民的制度需求及其地区差异。
经济林树种具有良好的观赏价值和适应性,是园林绿化的好树种。园林植物造景很大程度上取决于植物材料的应用,选择合适的经济林树种,进行科学搭配,遵循生态学基本原理,因地制
<正>沁县位于山西省东南部,是一个传统的农业县,也是中华名米"沁州黄"的祖产地。全县辖6镇7乡306个行政村,总面积为1318km2,其中耕地面积为4万hm2;总人口17.3万人,其中农业人
通过对运城市农业水资源和利用现状进行调查,摸清了农业水资源状况,系统地了解了当前农田蓄水、用水、节水方面的情况,理清了存在的主要问题,通过分析问题的主要原因,提出了
一、研究背景肝癌是全世界第五位的常见癌症,中国第三位的常见癌症。肝细胞性肝癌(HCC)约占原发性肝癌90%以上,预后不良。死亡率与发病率一致性地很高。据统计每年有超过50万
常言道:“教学有法,但无定法.”教师的课堂教学一般会按照教案中的教学设计进行,但是也常常会出现一些“节外生枝”的突发事件,特别是那些既喧宾夺主又冲淡主题、既无法躲避
期刊
传统企业似乎与智能时代有着一个巨大的鸿沟,尽管大部分的传统企业都已经走上了向智能化转型的路,但是这些传统企业却依然在用工业时代的逻辑运行着自己的企业。智能时代对于
<正>中国民俗艺术传入越南,在保留了适应越南国情的中国文化元素、吸纳了越南本民族的民风民俗、意识形态的内涵后,其越南当地本土文化色彩逐渐形成。经过长期发展,中国文化