论文部分内容阅读
近年来,网络流量分类方法作为先进网络管理和现代网络安全领域的一项基本技术,已被广泛应用于网络服务质量控制以及入侵检测等领域,方便网络运营商和提供商对网络流量进行有效的监控和管理。在如今的网络中,随着大量新型应用的出现,网络流量的构成变得更加复杂,基于网络流行为的流量分类方法可以和机器学习算法相结合,通过对数据的智能化处理,实现网络流量的有效分类,特别是与半监督机器学习方法相结合时,可以实现对新型未知协议的提取。然而原有的基于半监督学习的网络流量分类方法在现实的应用场景下,仍然存在着一些缺陷。针对这些问题,本文在原有的半监督流量分类方法的基础上,开展了如下研究:本文提出了一个可以满足现实中的复杂网络需求的自适应多协议分类系统模型,从四个方面对基于半监督学习的流量分类系统进行了改进:1)增加了标记数据辅助模块,利用已标记网络流计算出每个流特征的信息增益,进行特征加权,以及确认下一步k-means聚类所需的初始的聚类中心,实现了对已标记流的充分利用。2)为实现系统的参数自动选择,提出通过动态添加中心点以及迭代计算半监督k-means的方法,使系统可以自动确定最佳聚类数目,为后续训练分类器提供可靠数据。3)考虑原有的聚类簇映射方法的缺陷,改进利用已标记流对簇的类别映射方法,减小未知流量簇的错误映射概率,提高未知协议流量的提取准确率。4)优化系统更新方案,利用进一步的人工抽检方法,提高系统的知识储备量,增加系统的可分类流量类型。大量的仿真实验证明了,基于这些方面的改进,该系统可以在实现对多种常见协议网络流量高准确率分类的基础上,有效地对网络中的未知协议进行提取和分类。在此基础上,本文还提出将改进的自适应半监督流量分类方法与负载均衡技术相结合,从三个角度分析了该方法在负载均衡系统中应用的可行性与先进性,使负载均衡系统可以提供更加智能化和多样化的服务。