论文部分内容阅读
在线识别网络流量的业务类型是互联网流量控制,网络资源管理等工作的基础。目前互联网中各种业务流量随着用户需求的快速增长而不断发生变化,包括业务特征值集合的变化,新的业务类型的出现等,而现有的流量分类器却无法及时,准确地识别出流量的新业务特征值集合和业务类型,从而使流量分类器呈现可靠性差,扩展性不足等缺陷。当前的流量分类器难以为网络资源的有效管理提供依据。 本文的研究工作是设计一种离线数据分类方案来增强流量分类器来提高业务特征库更新效率,从而提升分类器对网络环境变化的适应能力。文章首先对现有的在线流量分类方法进行了研究和分析,总结了当前流量分类器在识别流量业务类型时存在的不足;接着,提出了通过采用机器学习方法来提升DPI特征库的更新效率的方案,在方案中,我们设计了一种子空间聚类方法—FPCLIQUE算法。FPCLIQUE算法将用于对流量数据进行分类,目的是降低离线分类流量数据的人工参与程度,提升流量分类器识别新业务流量的效率。由于这项工作需要大量的样本测试数据,因此我们从校园网中心进行了包流量数据的采集,完成了业务流的重组工作,并从中提取了样本数据的基本特征。最后,我们通过大量的数据测试,验证了FPCLIQUE算法得到的业务特征值集合在离线流量类别划分上的精确性,低误判率特性,良好的召回率,精细的业务分类等特性,这些特性能够有效地提高DPI特征库的更新效率,以及帮助我们实现进一步构建网络自适应能力强的DPI流量分类器。