基于流记录的高速网络应用层协议识别方法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cnjhhzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确识别当前网络流量所使用的应用协议可以为网络监测、分析与管理提供较传统SNMP协议更丰富细致的网络使用状况报告,并且是QoS、SLA等服务的前提和基础。但是,随着网络带宽的飞速增长,新应用协议的不断涌现,以及现有协议私密性和动态性的增强,目前已有的应用协议识别方法在整体的精度、协议的粒度、识别的时空复杂度、以及方法的灵活性与通用性方面达不到令人满意的效果,无法满足在10Gbps主干网络信道环境下实时准确标记应用协议的要求。   本论文针对实际需求,对应用协议识别过程的各个方面进行了深入系统地分析和改进,从而达到基于当前网管可用的数据,即抽样流记录,实时准确地标识当前10Gbps高速网络信道中每条流所使用的应用协议的最终目标。   论文主要包括三部分内容:首先针对应用协议识别的基础——协议行为特征,提出了新的特征选择和测度相关关系分析方法,为协议识别提供有效依据;然后,基于优化的测度选择,在理论环境中讨论协议识别问题,即基于非抽样流记录的识别方法;最后逐步限制环境条件,提出了基于抽样流记录和抽样NetFlow流记录的应用协议识别方法。实验结果表明,在1/256常用报文抽样比设置的NetFlow流记录实际环境下,应用协议识别达到超过86%的准确率,并满足实时监测10Gbps主干网络信道流量的效率要求。   论文第一部分首先针对目前研究对协议行为特征的理解不够全面准确的情况,在分析行为特征选择的本质属性基础上,提出了一种基于卡方统计的判断某行为测度是否可作为网络应用层协议的行为特征,并对该行为特征的显著程度进行评估的方法——ABSA。该方法以数理统计理论中的卡方统计检验为基础,使用假设检验判断两分布的拟合程度,从本质上确定测度是否可作为某协议的行为特征;使用趋向变量分布情况的区间随机划分启发式算法,保证了卡方统计量的稳定性;使用多自由度间的投票判断方式,消除自由度的不确定性;使用某置信度水平下各自由度的临界分位点对卡方统计量进行均化,消除统计量随自由度的增长对衡量差异造成的不利影响,保证了各自由度下统计量所占权重一致。较现有的特征分析方法,ABSA方法对协议行为特征判定和显著程度分析的结果更为准确有效,并且具有协议样本数比例无关等特性,可为协议识别提供更丰富有效的信息。   为避免冗余测度对协议识别的负面影响,论文将对称不确定性(SU)引入测度相关关系分析过程,并将该方法扩展至衡量两任意维测度向量间的相关关系。相较于目前相关研究中广泛使用的Pearson相关系数方法,SU方法不仅可以准确表示Pearson相关系数所能体现的测度间线性关系,而且能够弥补由于Pearson相关系数的本质缺陷所导致的非线性关系问题、极端值、以及复相关等问题,提高了网络流测度相关关系分析方法的准确性和通用性。同时,论文首次使用随机数仿真和多项式拟合的方法,利用Pearson相关系数在关系时的准确性,归纳出SU和Pearson方法在衡量无极端值线性关系的取值关系,揭示SU方法划分任意类型变量相关关系各程度区间的阈值。从而不仅保证了SU方法的输出具有显式意义,而且使应用协议识别方法冗余测度的删除有据可循。   论文第二部分在理论环境(无抽样,流测度选取基本无限制)中讨论了高速应用协议识别算法,提出了基于多神经网络链的应用协议识别方法——NNAI。该方法采用多个相对独立的小神经网络模块对网络流进行组合识别,每个独立的小神经网络模块对应一种特定的待识别应用协议类别,并在模块内部使用基于FR共轭梯度的反向传播算法代替传统BP训练算法。NNAI方法可利用自身各神经网络间的松耦合结构,巧妙且有效地利用ABSA方法得出的每个待识别应用协议所独有的行为特征。较现有应用协议识别方法,NNAI方法可处理更复杂的网络行为分布,将识别对象由完整TCP流扩展至所有TCP+UDP流;在保证占网络总流量比例较大协议原有的识别高精度的前提下,提高了小类别协议识别精度,使得识别总准确率进一步上升;并且具有各协议识别精度可控、协议识别对象增/减/细化/概化过程简单有效、时空复杂度低、以及可进行并行处理的优点。   论文第三部分首先分析了报文抽样对协议间的行为特征和ABSA方法的影响、对协议行为测度间相关关系和SU方法的影响、以及对协议识别和NNAI方法的影响。指出在抽样环境下,原有特征显著程度降低,并且测度间相关关系随各测度的不同呈单调增或减的趋势:但是,在流数量满足统计意义的前提下,协议行为特征的选择顺序和各测度间的相关关系程度区间均与抽样比无关。在高抽样比环境中,协议识别所依赖的有效信息减少,协议识别准确率较未抽样时降低。论文针对高抽样比环境下待处理流量显著降低,计算资源较充裕的情况,将空间维协议行为特征引入NNAI方法,并增加了通过已知协议的端口号进行流关联识别的过程,将原方法改进为可依赖更多信息的协议识别方法NNAIS。相较于原NNAI方法,NNAIS方法的准确率和各协议的识别精度在抽样环境下均有不同程度的提高,可满足实际常用抽样比环境中应用协议识别的精度和实时性的需要。   为了使应用协议识别方法可实际用于网管系统中,论文分析了目前已成为标准并被广泛使用的流信息统计与交换协议——NetFlow的工作机制以及所输出的流记录信息与NNAI系列方法所处的理论环境间的不同。并针对差异将子流聚合和提前协议标记两项改进过程引入NNAIS方法中,使得改进后的流聚合NNAIS方法可以达到原理论环境下NNAIS方法的识别准确率,并仍具有较低的时空复杂度,满足了以NetFlow抽样流记录为输入的10Gbps主干网络信道实时准确应用协议识别的最终要求。
其他文献
最近几年,无线局域网应用频繁,特别是一些基于微控制器的小系统也逐渐开始使用Wi-Fi进行通讯,如基于Wi-Fi的数据采集系统、基于Wi-Fi的虚拟串口系统等等。随着这类应用的推广
目前,脊椎病已经成为我国的常见病和高发病,且已出现低龄化的趋势。随着计算机图形图像技术在医学领域内的应用,计算机辅助脊椎诊断技术得到了拓展。三维医学图像的重建可以
近年来,气象卫星监测数据报文(简称气象报文)呈现出爆发式的增长,并且气象报文的传输具有突发性等特点,对数据处理实时性的要求越来越高。使用高性能集群处理气象卫星监测数
在这个信息大爆炸的时代,研究如何对规模迅猛增长且来源多样性的数据进行可视化具有重要意义。而利用数据中的关联信息有效地辅助可视化,满足用户查询意图的多样化需求,成为
在过去的几十年中,并行I/O系统被广泛应用于科研和商业领域。大规模存储系统在提供海量存储空间和高速访问速度的同时也带来了大量的能耗,增加了数据中心的成本。大多数已有
随着全球经济一体化和知识经济时代的到来,用户需求的个性化逐步凸显,不确定性也不断增强。激烈的市场竞争,使我国水产品企业逐步置身于变化迅速且无法预测的市场环境中。以大型
学位
从海量的视频数据中快速、准确地查找有价值的信息,是多种应用领域迫切需要解决的问题,传统的基于文本匹配的视频检索系统对此无能为力。因此,基于内容的视频检索课题逐渐成
随着经济社会的发展,人们对环境保护的意识和需求越来越强烈,而上海作为海边城市和国际金融大都市,海洋环境的监控意义越来越大,而倾废区监控是海洋监控的重要组成部分。本文所研
学位
随着医学影像设备的不断升级、三维定位系统的不断发展,三维医学图像处理技术及三维可视化技术被应用于临床的范围也在不断扩大。目前,实现定量诊断、手术模拟与手术预测等技
水产业是世界农业的重要组成部分。最近,随着其作为全世界给养之源的角色愈发提高,海洋己得到国内外的关注。随着世界人口不断增加,所有人的营养都有赖于海洋的自然资源。世界渴
学位