论文部分内容阅读
准确识别当前网络流量所使用的应用协议可以为网络监测、分析与管理提供较传统SNMP协议更丰富细致的网络使用状况报告,并且是QoS、SLA等服务的前提和基础。但是,随着网络带宽的飞速增长,新应用协议的不断涌现,以及现有协议私密性和动态性的增强,目前已有的应用协议识别方法在整体的精度、协议的粒度、识别的时空复杂度、以及方法的灵活性与通用性方面达不到令人满意的效果,无法满足在10Gbps主干网络信道环境下实时准确标记应用协议的要求。
本论文针对实际需求,对应用协议识别过程的各个方面进行了深入系统地分析和改进,从而达到基于当前网管可用的数据,即抽样流记录,实时准确地标识当前10Gbps高速网络信道中每条流所使用的应用协议的最终目标。
论文主要包括三部分内容:首先针对应用协议识别的基础——协议行为特征,提出了新的特征选择和测度相关关系分析方法,为协议识别提供有效依据;然后,基于优化的测度选择,在理论环境中讨论协议识别问题,即基于非抽样流记录的识别方法;最后逐步限制环境条件,提出了基于抽样流记录和抽样NetFlow流记录的应用协议识别方法。实验结果表明,在1/256常用报文抽样比设置的NetFlow流记录实际环境下,应用协议识别达到超过86%的准确率,并满足实时监测10Gbps主干网络信道流量的效率要求。
论文第一部分首先针对目前研究对协议行为特征的理解不够全面准确的情况,在分析行为特征选择的本质属性基础上,提出了一种基于卡方统计的判断某行为测度是否可作为网络应用层协议的行为特征,并对该行为特征的显著程度进行评估的方法——ABSA。该方法以数理统计理论中的卡方统计检验为基础,使用假设检验判断两分布的拟合程度,从本质上确定测度是否可作为某协议的行为特征;使用趋向变量分布情况的区间随机划分启发式算法,保证了卡方统计量的稳定性;使用多自由度间的投票判断方式,消除自由度的不确定性;使用某置信度水平下各自由度的临界分位点对卡方统计量进行均化,消除统计量随自由度的增长对衡量差异造成的不利影响,保证了各自由度下统计量所占权重一致。较现有的特征分析方法,ABSA方法对协议行为特征判定和显著程度分析的结果更为准确有效,并且具有协议样本数比例无关等特性,可为协议识别提供更丰富有效的信息。
为避免冗余测度对协议识别的负面影响,论文将对称不确定性(SU)引入测度相关关系分析过程,并将该方法扩展至衡量两任意维测度向量间的相关关系。相较于目前相关研究中广泛使用的Pearson相关系数方法,SU方法不仅可以准确表示Pearson相关系数所能体现的测度间线性关系,而且能够弥补由于Pearson相关系数的本质缺陷所导致的非线性关系问题、极端值、以及复相关等问题,提高了网络流测度相关关系分析方法的准确性和通用性。同时,论文首次使用随机数仿真和多项式拟合的方法,利用Pearson相关系数在关系时的准确性,归纳出SU和Pearson方法在衡量无极端值线性关系的取值关系,揭示SU方法划分任意类型变量相关关系各程度区间的阈值。从而不仅保证了SU方法的输出具有显式意义,而且使应用协议识别方法冗余测度的删除有据可循。
论文第二部分在理论环境(无抽样,流测度选取基本无限制)中讨论了高速应用协议识别算法,提出了基于多神经网络链的应用协议识别方法——NNAI。该方法采用多个相对独立的小神经网络模块对网络流进行组合识别,每个独立的小神经网络模块对应一种特定的待识别应用协议类别,并在模块内部使用基于FR共轭梯度的反向传播算法代替传统BP训练算法。NNAI方法可利用自身各神经网络间的松耦合结构,巧妙且有效地利用ABSA方法得出的每个待识别应用协议所独有的行为特征。较现有应用协议识别方法,NNAI方法可处理更复杂的网络行为分布,将识别对象由完整TCP流扩展至所有TCP+UDP流;在保证占网络总流量比例较大协议原有的识别高精度的前提下,提高了小类别协议识别精度,使得识别总准确率进一步上升;并且具有各协议识别精度可控、协议识别对象增/减/细化/概化过程简单有效、时空复杂度低、以及可进行并行处理的优点。
论文第三部分首先分析了报文抽样对协议间的行为特征和ABSA方法的影响、对协议行为测度间相关关系和SU方法的影响、以及对协议识别和NNAI方法的影响。指出在抽样环境下,原有特征显著程度降低,并且测度间相关关系随各测度的不同呈单调增或减的趋势:但是,在流数量满足统计意义的前提下,协议行为特征的选择顺序和各测度间的相关关系程度区间均与抽样比无关。在高抽样比环境中,协议识别所依赖的有效信息减少,协议识别准确率较未抽样时降低。论文针对高抽样比环境下待处理流量显著降低,计算资源较充裕的情况,将空间维协议行为特征引入NNAI方法,并增加了通过已知协议的端口号进行流关联识别的过程,将原方法改进为可依赖更多信息的协议识别方法NNAIS。相较于原NNAI方法,NNAIS方法的准确率和各协议的识别精度在抽样环境下均有不同程度的提高,可满足实际常用抽样比环境中应用协议识别的精度和实时性的需要。
为了使应用协议识别方法可实际用于网管系统中,论文分析了目前已成为标准并被广泛使用的流信息统计与交换协议——NetFlow的工作机制以及所输出的流记录信息与NNAI系列方法所处的理论环境间的不同。并针对差异将子流聚合和提前协议标记两项改进过程引入NNAIS方法中,使得改进后的流聚合NNAIS方法可以达到原理论环境下NNAIS方法的识别准确率,并仍具有较低的时空复杂度,满足了以NetFlow抽样流记录为输入的10Gbps主干网络信道实时准确应用协议识别的最终要求。