论文部分内容阅读
随着信息技术的蓬勃发展,种类繁多的互联网应用产生的大量流量占用了很多网络资源,在给服务质量带来巨大挑战的同时也给互联网安全产生负面影响。为了高效地利用网络资源并为网络管理者提供有效的管控手段,以辨别应用层协议为目的的网络流量分类技术成为近年来的研究热点问题。文章以此为研究背景,以具有相同五元组的传输层双向报文序列为研究对象,对基于机器学习的网络流量分类技术进行研究并加以应用。文章首先介绍了基于知名端口号、基于特征字匹配等传统的网络流量分类技术,但因其固有的缺陷导致分类精度已难以满足现阶段的需求,故引出基于机器学习的网络流量分类技术。随后文章对机器学习中的朴素贝叶斯、C4.5决策树、支持向量机以及集成学习分类算法进行了研究。之后,根据上述机器学习算法的特点,文章提出两种改进的分类算法,分别是以样本缩减策略为基础的基于支持向量机的改进算法以及基于结果反馈的机器学习改进算法。第一种改进算法以信息增益率和样本质心为理论基础,将对分类结果影响不大的属性和靠近样本质心的样本点删除,只用可能成为支持向量的样本点进行训练,在保证正确率的同时增加了训练效率;第二种改进算法以分类器的误判样本集合为基础,将误判样本的正确分类结果反馈给测试样本,以增加分类器对测试样本的分类精度。最后,文章对数据包捕获、流形成、流属性确定、流样本标记流程、连续数据离散化进行了描述,并利用经典数据集对基于机器学习的网络流量分类算法及其改进算法进行应用。实验结果表明机器学习分类算法能够避免传统分类算法的缺陷,将不同应用层协议产生的流量高精度地分类。对改进算法的实验结果表明,基于支持向量机的改进算法在保持精度不变的基础上大幅度缩短了训练时间,基于结果反馈的机器学习改进算法成功地利用误判集合将正确结果反馈给待测样本,增加了分类精度。验证了改进算法在训练效率与精度上对原算法的提升。