论文部分内容阅读
随着互联网规模的扩大和网络流量的增多,如何对网络流量和用户行为进行监管,成为了网络管理者亟待解决的问题,如何利用网络流以及网络主机特征对网络流和端主机进行识别便成为了研究热点。但是,现有的网络流分类方式主要是利用网络流的时域统计特征进行识别,分类效果不稳定。此外,现有研究中,对端主机的识别则处于相对空白的阶段。针对上述的网络流和端主机识别的研究现状,本文详细地分析了网络流以及主机的时变特性,结合机器学习理论,提出了利用时频变换提取网络流和端主机的时变特征,从而对网络流以及端主机进行识别的方法。具体工作如下:1、网络流的时变特性分析。不同的网络应用以及端主机,都对应着其独特的通信模式,而时变特征便能有力地刻画网络流的不同行为模式。本文首先详细介绍了基于时频变换的时变特征提取方法,选取了12种不同时频变换,挖掘对应的时变特征。但是经过时频变换后得到的时频矩阵维度巨大,不利于后续研究的展开,因此本文详细介绍了Renyi熵、奇异值分解对矩阵特征的提取原理,并将其应用于时频矩阵的降维之中。2、基于时变特征的网络流分类方法研究。网络应用可以根据其应用分为不同的业务类别,每一种业务类别都有其独特的通信模式,我们首先将网络应用分为了34种业务类别,从每秒传输字节数的角度分析了其变化情况,发现不同的业务类别有其各自的时变特点。于是,本文采用了每秒传输的字节数作为待变换的原始时域特征,经过变换后的时频矩阵采用了统计学理论与Renyi熵和奇异值分解相结合的方法作为特征降维方法,最后利用机器学习中的C4.5决策树算法对网络流进行了分类。通过分析验证发现,加入了时变特征之后更容易识别出长流,且将时变特征与传统的统计特征相结合后会得到较好的分类效果。3、基于时变特征的端主机识别方法研究。与网络流分类不同,端主机的识别应该站在主机层面上进行特征提取。本文详细比较了不同端主机在一天的时间范围内的网络流量变化趋势,在时频特征的基础上加入了统计特征以及差分特征两类特征对端主机进行识别。结果表明,利用这三类特征在小型网络中进行的主机识别能取得较好的效果。