论文部分内容阅读
目前,网络流量分类在网络管理和安全中发挥着很重要的作用。近年来,由于基于有效载荷和端口的方法的性能下降,使得基于机器学习(Machine Learning,ML)的方法变得越来越重要。但是,网络流量分布的不平衡严重降低了ML技术的分类性能,因为使用此分布不平衡的数据集会训练出一个有偏差的分类器,从而在多数类的准确度方面获得更高的性能,而少数类的准确度则更低。近年来,很多研究者针对两类不平衡的问题提出了自己的解决方案,但在现实应用中往往会出现多类不平衡问题,即多个少数类和多个多数类的学习问题,而此问题解决起来比两类问题困难。因此,为了解决多类不平衡分类问题,本文提出了两种新的集成采样方法,分别采用智能欠采样与过采样法用于决策树(Decision Tree,DT)和随机森林(Random Forest,RF)算法上。第一种方法,即ADCUT,是将改进的自适应综合过采样方法(Modified Adaptive Synthetic Over-Sampling,MADASYN)与基于Mini-batch K-means的欠采样(Clustering Under-Sampling Technique,CUT)相结合,此方法在训练决策树(Decsion Tree,DT)前应用于训练数据集。而第二种方法,即ADTO,是通过将Tomek Link(Tomek)欠采样技术和MADASYN重采样技术与RF算法相结合来提高分类器的性能。ADTO是用来平衡RF中的每个Bootstrap的数据分布,使每个基分类器更容易学习到少数类。在这两种方法当中,MADASYN为本文基于ADASYN算法提出的一种改进算法,该方法是在生成合成样本之前增加了基于K最近邻算法的噪声滤波器,以排除少数类中的噪声样本。此外,CUT与Tomek为本文的欠采样方法。在欠采样过程中,通过考虑多数类的每个子空间,本文提出了CUT方法来缓解多数类的类内与类间不平衡问题。并且,Tomek是用来去除决策边界上的多数类样本,使得在类之间有个更清晰的边界。第二方法用Tomek而不是CUT,以减少RF中的每个Bootstrap数据的欠采样时间。这两种集成采样方法的目的是通过MADASYN引入新的知识(样本),并通过CUT和Tomek去除信息不足的多数类样本,从而解决多类不平衡与概念漂移问题。对于计算资源有限或实时性要求高的网络环境,建议使用ADCUT,对于计算资源丰富的网络环境或高性能要求,建议使用ADTO。此外,本文还对每种方法的各个参数进行了全面的研究,以供给未来的研究者参考。在此基础上,本文还提出了集成特征选择(EFS)方法,通过去除冗余和无关特征来进一步提高分类器的性能。EFS建立在现有的四种不同类型的特性选择(Filter Feature Selection,FS)方法和包装方法(Wrapper)之上。首先,初始特征集是通过四个FS进行过滤,得到次优特征子集。然后,EFS采用以DT为指导分类器的包装方法并以曲线下面积(Area Under ROC curve)为评价指标去选择最终的最优特征子集。本文在NetFlow记录上建立分类器,该记录可以从NetFlow的设备中以流的形式提取,这与大多数研究中使用的常见包级特征相比,可以降低成本和额外的工作,因为包级特征的提取需要额外的设备来收集并计算。本文使用四种不同的评估指标,即总体准确度(OA)、几何平均值(G-mean)、F-measure和AUC。本文将所提出方法与现有流行的采样和FS方法在四个不同规模和不平衡的现实网络流量数据集上进行了比较。实验结果表明,与现有的方法相比,该方法在不影响整体分类性能的前提下,对少数类性能有较大的提高。