论文部分内容阅读
网络数据流分类是目前工业界和学术界研究热点。传统的基于端口、基于DPI的分类方法在P2P业务种类剧增以及抗加密性差问题上处于明显的劣势,导致分类准确率急剧下降。因而越来越多的科学家开始关注于基于统计特征的互联网流量分类系统,它仅依靠数据报文头部以及数据流外部可观察到的特征信息配合机器学习算法来对数据流进行分类,而不必对数据报文的内容进行分析。本论文中包含的工作如下:1)介绍并讨论了流量分类系统构建的理论基础,例如分类单位、分类评价指标、分类粒度、分类特征以及分类算法。2)将采集自公网的报文数据利用DPI进行分类标记并提取每个报文流中的{源端口、目的端口、传输层协议、前五个报文大小}这一特征来对数据报文进行学习建模,其间我们采用了C4.5决策树和SVM支持向量机的方法来构建分类模型并进行对比实验。尽管在识别精确度上C4.5(96.93%)要比SVM(98.20%)略低,但是C4.5的识别速率却要远胜于SVM(约20倍的差距)。3)针对特殊网络环境下(乱序、丢包以及数据流少于五个报文)C4.5的识别情况进行分析,发现在报文乱序的情况下C4.5的识别精度受到了较大的影响,因此我们创新地提出了采用词袋模型结合{源端口、目的端口、传输层协议、报文大小}这一新的特征集来对数据报文进行分类,从理论和实验两方面有效地提高了乱序情况下报文的识别精确度(约10%)。