论文部分内容阅读
随着移动网络新时代的到来,移动设备上的APP种类和数量正在急速增长,相应的移动流量也呈现爆发式的增长。流量的识别与分类是网络管理和网络安全领域的重要研究内容。运营商需要根据带宽中的各类流量的占比进行动态访问控制,为客户提供更好的用户体验。安全监管部门需要实时检测网络流量中的恶意流量,避免其造成严重损失。在流量分类领域的研究中,随着端口伪装、随机端口技术的出现,传统基于端口的流量分类方法迅速失效;基于净荷特征的方法也因为加密流量的出现而失去作用。于是有学者开始将机器学习应用于流量分类问题上,如尝试使用朴素贝叶斯、SVM支持向量机、决策树、随机森林等方法对流统计特征或时序特征进行特征提取和分类模型的训练。在这些研究中,特征的提取往往依赖于领域专家人工设计,特征设计的好坏会对模型学习产生较大影响。同时作为一种人工手段,不仅耗时耗力,在样本流量有限的情况下对流量非线性特征的表达能力有限。因此传统机器学习手段对人工特征设计及数据集的依赖较大。然而在流量采集过程中,捕获的流量往往是不纯净的,需要在繁杂的网络流量中过滤出需要的数据,并对其进行标注,这个过程需要耗费大量的时间和人力。同时由于各类应用的热度不同,对于一些冷门应用往往很难采集到大量流量,这就导致建立的数据集会出现数据不平衡问题。为此,本文设计了基于不平衡数据集的移动流量分类系统。首先提出了一种将流量转换为图像的方法,在不解析数据内容的情况下,按照分组信息转换为流量图像。接着提出了基于条件生成对抗网络的移动流量图像样本生成模型:Packet CGAN,通过流量图像标签的引入,控制生成小类别流量图像样本,以平衡数据集。同时对CGAN的模型结构进行调整,引入CNN神经网络作为流量分类器。最后使用4种基于深度学习的流量图像分类模型进行流量分类。设计了多组对照试验来验证Packet CGAN样本生成方法的可行性。实验结果显示Packet CGAN平衡数据集的分类效果要优于其他数据集。本文的主要创新如下:1、设计了基于流量分组的流量图像转换方法,通过对Pcap文件的解析,在不解析流量具体内容的情况下将其转换为单通道灰度流量图和三通道流量图像,从而可以应用图像识别领域成熟的深度学习模型来对加密流量进行分类和识别。2、设计了基于条件生成对抗网络的移动流量图像样本生成模型:Packet CGAN。在训练过程中加入流量图像类别标签作为条件变量,以有监督学习的方式改善传统生成对抗网络的“模式坍塌”现象。对判别器和生成器的网络结构进行调整,通过CNN神经网络的引入,在生成流量样本的同时,实现了对移动应用流量的分类。