论文部分内容阅读
随着网络的广泛应用,网络结构日益复杂,网络流量不断增加,为有效的管理网络,需要对网络流量进行分析。随着网络带宽的不断增加,单位时间的数据量变得巨大,即使是较小的网络,随着采样时间的增加,数据量和计算量也将会变得极其巨大。使用传统的网络流量分析技术进行快速分析已经变得越来越困难,需要引入更高效、可靠的面向大数据的处理方法对网络流量数据进行分析,及时发现DDOS攻击、蠕虫病毒等异常网络流量,为网络管理提供一个有效的工具。在此背景下,本文设计一个面向大数据的网络流量分析系统,以Hadoop的HDFS分布式文件系统提供底层存储服务,以HBase分布式存储网络流量数据并提供交互查询功能,用rhbase连接HBase与R语言以图型的方式直观展现网络流量数据的特点和变化趋势,实现网络流量数据的存储、查询和分析。完成的具体工作如下:(1)系统架构设计。根据网络流量数据的特点结合需求,筛选Hadoop生态系统组件的价值,选取Hadoop和HBase,并引入大数据可视化分析,探索了大数据应用,设计并实现了一个分布式网络流量分析系统。(2)搭建系统平台。基于Linux搭建Hadoop和HBase集群,并使用Zookeeper维护集群稳定运行,建立起系统运行平台。(3)系统功能实现。使用Libpcap捕获网络流量数据包,通过Thrift将数据存入HBase数据库。为实现高效的存储和查询,优化了HBase表结构及RowKey设计。(4)可视化分析。根据网络流量数据的特点,结合“信息熵”选取“三维散点图”,以图型的方式展现抽象的网络数据,利用人类视觉对图形的感知能力,快速掌握网络安全状况,完成网络流量数据的分析。(5)系统测试。对系统的吞吐量、延时等关键指标进行测试,检验系统实际性能,验证系统设计。通过测试证明系统设计合理可行,搭建的系统满足实际需求。