论文部分内容阅读
随着网络技术的飞速发展,互联网的规模不断扩大,业务类型不断增加。一方面网络流量急剧增长,造成网络拥塞,导致网络服务质量下降,另一方面,种类繁多的网络应用,越来越占用网络资源,且给网络安全带来巨大威胁。为更好了解网络状况,及时处理网络故障,并对管理和优化网络配置提供依据,网络管理者需对不同网络应用进行及时、准确的分析,对网络行为进行有效的控制。实现这些的前提和基础是对网络流量的正确识别与分类。目前,基于流统计特征的流量分类方法是研究热点,在这种方法中,定义和提取区分不同类型流量的有效特征与选择合适的分类方法是关键。这里的网络特征,既包含数据包特征也包含数据流特征。富含分类信息特征的选取,能提高分类精确度,同时,特征维度的降低,能减少后续分类器建模时间,提高分类速度。本文从人工分析选择特征和特征选择算法选择特征这两个方面展开研究。首先,在Moore特征集的基础上,人工分析选择特征。本文将Moore特征集的特征按性质分为五个组,分组考察特征对网络流分类的贡献,找出关键特征组别,然后再逐步细化,区分出哪些特征对网络流分类具有相对更高的贡献度。为排除后续机器学习方法对分类的影响,实验时,选择多种机器学习方法进行对比。最终细化出一组特征,在所属特征类别中具有相对更好的分类效果。其次,在已有人工分析选择特征的基础上,提出了改进的特征选择方法。特征的人工选择基于经验和大量实验,效率不高且可能无法覆盖到所有富含分类信息的特征,用特征选择算法自动选取特征,可以排除人的干扰,能提高效率和尽可能覆盖好的特征。本文结合已有研究结论与信息增益测度,对传统遗传算法中的几个步骤进行改进,提出了基于信息增益与遗传算法的特征选择方法,用于流量识别。实验对比几种使用相同数据集进实验验证的特征选择方法,本文提出方法在精简特征的同时,能保持较高的分类准确性,可以适用于大规模网络流量的分类。