论文部分内容阅读
移动设备的迅速普及极大地改变了各种网络服务的接入方式,导致了移动业务流量的爆炸式增长。在过去的几十年里,移动服务流量分类一直是移动网络管理、安全监测领域的研究热点。然而,随着越来越多的移动服务采用加密技术,移动流量分类面临很多挑战。虽然经典的机器学习方法可以解决基于端口和有效载荷方法不能解决的许多问题,但它仍然存在一些局限性,如复杂的特征需要手工提取十分耗时耗力、特征更新频繁等。深度学习(Deep learning)具有良好的自动特征学习能力,无疑成为移动服务流量分类,特别是加密流量分类的理想方法,但仍然存在一些局限性,其中之一就是网络流量数据的不平衡性。数据的不平衡会导致将小样本类别的应用错误识别为类似的大样本类别的应用,从而影响分类结果。而且加密流量的标记十分困难,而没有标记的加密流量却十分容易获得。据此,本文提出了一种称为Flow GAN的深度学习方法来解决加密流量分类识别中类别不平衡的问题。Flow GAN作为生成对抗网络(GAN)的一个流派,利用了GAN数据扩充的优势,对小样本进行补充,形成平衡数据集;使用基于SGAN的半监督学习方式,可以利用少量有标记样本和大量无标记样本进行分类;利用MLP,CNN,SAE等多种深度学习分类模型对平衡后的加密流量进行分类,输出分类结果。本文的主要工作如下:(1)着重对样本数据不平衡的情况下,小样本识别率偏低的问题进行研究,提出使用GAN来扩充加密数据流量,以解决加密流量数据样本不平衡的问题。(2)针对有标记样本少而无标记样本多的特点,使用SGAN通过优化其网络结构和参数,使其与半监督学习相结合,利用少量有标记样本和大量无标记样本,训练判别器进行分类实验。(3)使用基于MLP,CNN,SAE三种分类模型在使用不同数据平衡方法的数据集(过抽样平衡方法,SMOTE平衡方法,基于GAN的平衡方法)上进行分类验证,以此来检验FLOWGAN的性能。实验结果表明,在ISCX数据集上使用SGAN方法进行半监督学习,和基于CNN的分类器进行识别准确性对比,在标记样本数量较少时,准确率有明显提高;使用基于GAN的平衡实验结果表明,小样本应用的分类在MLP方法下效果提升显著,三项分类指标(Precision,Recall,F1-Score)和基于非平衡数据集上的实验结果相比分别提升了20-30%,其中aim_chat,facebook,icq这三个小样本应用,在使用CNN和SAE分类方法时也分别有2-3%的提升。