论文部分内容阅读
互联网的发展使得流量分析需求随之提高,需要在非解密情况下对海量的网络流量做出精细化识别分类。传统的机器学习分类方法存在一些受制条件,基于深度学习的流量识别方法能大大简化传统机器学习流量提取的工作难度,且端到端的模型能实现全局最优。一般分类方法都是假定数据样本类别大致平衡而实现分类,但现实中往往因为数据不均衡影响最终分类性能。当数据集样本类别存在严重不均衡问题时,小类别样本会因模型特征学习不足导致分类结果不可靠、识别准确率偏低等问题。为解决网络流量数据类别不平衡导致的小类别样本识别率不高问题,提出利用基于GAN样本增强方法提升加密网络流量分类性能。构建生成对抗网络生成新样本使得流量数据集实现类别均衡,结合深度学习技术,使用CNN和LSTM学习流量空间特征及时序特征,设计多种分类模型对平衡数据集进行流量分类。本文主要工作包括:1)使用生成对抗网络及其改进算法提升不平衡数据集分类性能,在生成对抗网络中使用深层卷积网络优化生成器,通过生成器与判别器迭代对抗训练,不断优化损失函数,直至得到最佳模型;利用该生成模型扩展公开数据集中的小类别数据,实现数据集类间均衡。生成器及判别器模型使用了一种深层卷积神经网络代替原始GAN中多层感知机结构,同时为了使网络可微,取消了网络中的池化层,提升生成样本的质量及效率。2)基于深度学习的加密流量特征提取和识别模型优化研究。首先将网络流量数据处理为“会话-数据包-字节”层次化结构序列作为数据的表征表示,然后基于CNN和LSTM设计了四种基分类模型,实验结果表明基于2D-1DCNN网络识别准确率最高,达到97.86%,充分说明了基于输入的二维层次化序列,一维CNN可以更好地对流量数据包间关系进行建模。最后设计了CNN+LSTM混合模型,充分挖掘流量数据时空特征,进一步提高流量分类性能。3)从两个方面设计对比实验:数据集平衡方法及分类模型对比实验。针对基于GAN平衡后的数据集和原始非平衡数据集、采用过抽样和SMOTE方法平衡后的数据集,在不同模型下的分类结果,实验结果表明本文基于改进GAN数据平衡方法的分类效果最佳;并通过多种数据集验证了本文模型优化的有效性。