论文部分内容阅读
随着网络技术的飞速发展,网络应用类型不断增多,网络流量呈现爆发式增长,不同类型的应用在对网络资源的需求和使用方面呈现出较大差异。为了更好地保障网络应用的QoS需求,实现对应用业务的精细化管理,提高网络资源利用率,需要对网络流量进行分类和识别。然而,现有流量分类方法一方面大多以网络应用协议特征为分类依据,无法反映应用流量对网络资源的使用情况以及应用流量QoS需求的满足情况,另一方面在面对大规模流量数据时,受限于平台的计算能力和存储能力,导致识别训练开销大、速度慢等问题。因此,本硕士论文针对现有网络流量分类中存在的上述问题,从网络应用对网络资源使用情况的角度,对面向网络应用特征的流量分类方法进行研究,主要工作包括以下几个方面:(1)分析现有应用流量QoS需求以及对网络资源的使用情况,将网络应用流量特征引入到流量分类领域,建立面向网络应用流量特征的流量分类模型,用于刻画动态应用类型行为对网络状态的影响,从而为保障业务的QoS需求,实现对应用业务的精细化管理提供基础。(2)针对流量特征种类繁多,导致训练时间开销过大等不足,提出一种基于类别相关的网络应用流量特征降维方法。该方法首先基于类别相关性确定对流量分类影响显著的流量特征,然后计算每两个特征间的冗余性,去除对流量分类影响小且冗余性高的流量特征,从而获得分类特征集,有助于为后续样本训练构造样本集,达到减少训练时间开销的目的。(3)面对大规模流量,针对现有流量分类方法大多采用单机分类技术,存在训练时间长,存储能力有限等不足,提出一种基于网络应用流量特征的并行流量分类方法。该方法首先将重取样与欠取样方式相结合构造样本子集,划分若干个包含网络应用流量特征的样本子集,然后将并行化思想引入到流量分类中,使用Spark计算框架分别对样本子集构造成员分类器。最后在分类阶段成员分类器根据投票选举对网络流量进行分类。该方法借助于Spark计算框架在保证分类准确率的同时能有效的减少样本训练的时间开销。综上所述,本论文对网络的流量分类问题进行了深入的研究,建立了一种面向网络应用流量特征的流量分类模型,进而分别提出了基于类别相关的网络应用流量特征降维方法和基于网络应用流量特征的并行流量分类方法,设计相应的仿真实验以及实现原型系统,验证了本文研究成果的可行性与有效性。