基于Hadoop的海量网络流量日志处理技术研究与实现

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:lidids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络的高速发展,大数据时代的降临,海量网络流量数据的处理需求也应运而生。为满足海量网络流量数据的处理需求,对网络流量进行有效、深入地分析,实现对网络流量有力监管,需要针对骨干网进行网络流量日志的高效采集然后再对网络流量日志进行高效地分析处理。对网络流量日志的多维度统计分析,可以深入了解网络的运行及使用状况,以调整策略提高网络质量;对网络流量日志的深入挖掘分析,可以发掘用户上网特点及偏好,可以深入了解用户需求,以高效服务提高用户满意度。因此,该课题研究了网络流量日志的处理技术,并最终实现了基于Hadoop的HAMANT海量网络流量日志分析系统(由关键英文单词首字母缩写而成)。本文首先介绍了课题背景与意义,日志处理技术现状,另概述了与课题相关的一些关键技术,包括大数据、DPI、Hadoop、Hbase、数据挖掘等。随后依据课题需要,结合应用场景对海量网络流量日志处理技术进行了需求及功能分析,给出了HAMANT日志分析系统的整体框架,并给出了其中日志采集、日志预处理、日志存储、日志统计分析、日志挖掘分析、报表展示等模块的详细设计。最后,进行了该系统各项性能测试,并结合对某重点高校骨干网的海量网络流量的处理进行了效果展示,证明了本系统对于海量网络流量日志的处理能够达到较好效果,而且还具有一定可扩展性。本课题对于网络流量日志技术进行了较为深入地探究,并最终设计出基于Hadoop的HAMANT日志分析系统。该系统对网络流量日志采集加入了DPI协议识别引擎,使网络流量日志采集丰富而高效;日志存储、处理部分采用分布式处理,支持自动备份、容错,克服了传统的日志单机处理计算速度慢、存储空间不足、服务器压力较大的问题;将数据挖掘中的聚类算法进行了分布式实现并加入系统,实现了对于海量网络流量日志的深度分析,能发掘大量网络用户背后所隐藏的上网行为偏好。最后给出了系统性能测试及实际应用实验分析。
其他文献
改革开放36年以来,我国经济社会快速发展,越来越多的人涌入先进地区甚至漂洋过海远赴美国、日本等发达地区,为当地城市和家乡发展作出巨大贡献。然则,全球化、工业化、城镇化
分析了当前包头市居住社区发展存在的突出问题,针对包头市各社区的不同特点提出了便民服务型、城市记忆型、创业SOHO型、开放共享型4类美好社区的具体建设策略,为其他城市的
移动互联网,就是将移动通信和互联网二者结合起来,成为一体。随着宽带无线接入技术和移动终端技术的飞速发展,人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网
建筑行业在综合发展的过程中对于我国社会经济的发展有较大的推动作用,并且在近年来逐渐取得良好的发展势头。但在其持续发展当中产生了一定的生态环境污染,给我国环保事业的
随着数字化技术的不断发展,数字化地籍测量作为一种先进的地籍测量技术开始得到广泛应用。为此,论文以浙江省某市展开的城市地籍调查为例,对数字化地籍测量在城镇地籍调查中的应用进行研究。
随着我国加入WTO,逐步开放国内电信市场,整个电信行业市场重新布局,加剧了我国电信行业的竞争形势。同时,随着国家调整了对原本属于运营商专属经营的VOIP、数据中心、虚拟运
对盾构隧道下穿铁路施工技术进行分析,介绍了工程概况,阐述了盾构隧道下穿铁路施工技术的应用,并提出具体的注意事项,希望能够为相关工作人员起到一些参考作用。