论文部分内容阅读
近几年网络流识别吸引了越来越多人的兴趣,准确快速的识别网络流应用层协议数据所属协议类别,将对当前网络的运行和管理带来重大现实意义,有助于深化网络流工程学,网络容量设计和分配,QoS服务质量控制,网络性能监控,异常根源分析和安全监控等研究。
在流识别方法上,传统的基于IANA(Internet Assigned Numbers Authority)列表中的注册服务端口进行网络流识别的方法,如认为80端口即为Web流量信息,而25端口即为邮件信息的方法,已经越来越不适应网络协议的快速发展以P2P为代表的动态端口技术和以防火墙穿透为代表的端口复用技术等使得单纯的基于端口进行协议识别的方法准确率越来越低,已逐渐被其他方法取代。当前的网络流识别研究转向基于流特征的识别方法。
文章首先回顾了现有的网络流识别方法,简要介绍了当前基于行为属性特征和基于内容属性特征的两类流识别方法的基本情况,然后对两类方法的优缺点进行对比和分析,最后给出本文提出的流识别方法:文本类多协议特征自动发现方法。
文本类多协议特征自动发现方法是一个基于内容的流识别方法,处理的是协议数据中ASCⅡ占主体的文本类协议,可以对存在多协议混杂并存情况的真实网络数据进行自动归类并提取协议特征。该方法通过一组解析规则将文本类协议数据内部存在的高层语义信息转化为可比较的形式,然后基于“相似内容属于相同协议”的假设和“一个TCP连接的两个方向的数据属于同一个协议”的定理对原始数据进行协议归类。这种协议数据归类方法获得比当前的其他归类方法更好的效果。
本文方法和当前的其他网络流特征提取方法的主要不同之处在于对原始数据协议类别进行划分的过程:当前许多网络流识别方法是以某个特定协议的数据作为训练输入,这类数据的获取方法或通过人工标注或基于端口,由于这两种方法或者工作量太大或者精度不够高,都不完善。
本文的主要贡献为:
(1)在输入数据中没有任何标注的情况下,自动对协议数据进行归类和协议特征发现
(2)将输入数据类型划分为文本类协议数据和非文本类协议数据
(3)对文本类协议数据语义信息的解析和提取,并给出两个流的协议数据解析结果的相似性度量方法
(4)提出一个文本类协议特征的形式定义
(5)具有小流量协议发现能力
(6)对广域网背景下文本类协议数据的处理,本文方法比当前其他方法具有更好的协议特征发现能力,并获得更好的流识别结果。