论文部分内容阅读
近年来,随着互联网的高速发展,各种网络应用层出不穷,中国乃至全球的互联网使用人数与日俱增。据CCNIC发布的第36次中国互联网络发展状况统计报告,截至2015年6月,中国网民规模达6.68亿,半年内总计新增网民1894万人。互联网普及率为48.8%。随着互联网的越来越普及,人们在日常生活中和互联网之间的联系也越来越紧密,互联网产生的网络流量数据也越来越大。对于这些包含个人信息的海量网络流量数据,如何对其进行处理、分析及存储也是运营商关心的一大难题。Hadoop的出现在一定程度上解决了海量网络流量数据的处理这个难题,但是随之新的问题出现了。Hadoop的批处理机制使得其更适合处理海量的离线数据,而对于实时的海量数据处理,则表现不尽人意。而Storm流处理平台的出现刚好弥补了 Hadoop实时性不足的缺点,成为大数据时代实时海量数据处理的新利器。本文首先介绍了海量网络流量的大环境,包括异常网络流量的危害以及异常检测研究现状。接着,介绍了大数据处理的一些相关技术。随后,分析了传统的异常网络流量检测法的不足,并在充分了解网络流量的时间序列性之后,提出将格拉布斯异常值检测法和动态K近邻相结合的新型检测算法,作为异常流量实时检测的算法,并对算法合理性和正确率进行了验证。之后,详细介绍了异常流量实时监测系统,包括Kafka消息系统,Storm流处理平台和Hbase非关系型数据库,以及基于K近邻-格拉布斯检测法在这套Storm框架系统下的实现。最后,本文对异常网络流量实时检测系统的实验所得数据进行了分析。本文所有的数据均来自于某省的两千多家企业网的日常真实流量,所以可以保证数据的真实性和海量性。本文中所有的测试也都是在自主搭建的Storm实时处理平台上完成的。并且,实验数据结果显示,这套系统能够正确的完成异常流量的实时监测的任务。