论文部分内容阅读
互联网异常是指影响网络性能或造成数据破坏的事件,这些事件通常会引起某些流量特征违反某种已建立的模式或标准,分析流量特征在异常情况下的变化,并以之为基础进行异常检测的应用研究,可以及时地发现网络异常、诊断网络错误,对互联网的安全运行和管理具有重要的意义。NetFlow是一种数据交换方式,一个NetFlow流定义为在一个源IP地址和目的IP地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号。Netflow数据中包含了网络异常检测所需要的流量特征,可以利用Netflow数据所提供的网络流量特征分析当前网络所处的状态。目前的基于Netflow的异常检测尚有很多不足:1)高的误检率;2)多数方法难以达到高速链路的实时在线检测需求;3)Netflow数据量较大,对于历史数据不能有效的存储;4)全网异常检测方法较少且问题较多。云计算通过整合互联网络中的闲散资源,对外提供强大的存储和计算能力,以及一些其它解决方案。Hadoop是一个开源分布式数据处理框架,被用于高效地处理海量数据。由于Hadoop具有可伸缩性、高可靠性、低成本性和高效性等优点,已成为一种流行的云计算开发平台。Hadoop提供了云计算所需要的众多功能:HDFS分布式文件系统、MapReduce计算模型、HBase分布式NoSQL列数据库等。利用云计算开发平台我们可以解决网络数据存储和异常检测的众多问题。本文以互联网异常流量特征的分析为基础,利用Hadoop云计算开发平台,进行异常检测的应用研究,实现了一个基于云计算的异常流量检测系统。本文主要研究内容和贡献如下:1.提出一种基于包数据流量特征的分析方法,并应用这种方法对流量特征的异常变化进进行了分析。主要结果是正常流量特征分布在小的时间尺度上具有一定的稳定性,而异常流量会导致部分流量特征的分布产生明显的变化,从而打破这样的稳定性。2.提出了用于检测互联网异常的十维异常流量分析指标,利用分析指标的变化情况分析网络中存在的异常流量,使用分析指标的不同变化检测网络中未知的异常流量。3.利用Hadoop搭建云存储平台,利用HDFS分布式文件系统存储大量的netflow数据文件,HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。HDFS的高吞吐量使得其尤其适用于大数据集的程序。4.将MapReduce计算模型用于异常流量分析的过程之中,简化了计算步骤,加快了方法的检测效率,增强了异常流量检测的实时性。