论文部分内容阅读
网络流量测量是指对数据链路上的报文进行采集、分析、建模,结合具体算法分析网络行为的过程,是分析网络性能,理解互联网用户行为,检测网络异常、网络安全事件的重要前提。通过对流长、流数测度等流量特征进行分析,解决测量应用中大流检测、流长分布估计等关键问题,能够为网络的有效运行、管理和维护提供有力的支撑。但随着网络关键基础设施的不断完善,网络链路速率不断提高,在高速网络上进行流量测量需要更多的计算和内存资源,流量测量研究与分析工作面临巨大的技术挑战。为此,本文设计并实现高速网络数据流应用检测系统,通过抽样技术、数据流技术对海量流量进行缩减,完成高速链路下的流量测量任务。本论文的主要内容如下:1.基于遗传编程算法设计并实现适用于数据流技术的非加密哈希算法。哈希算法作为数据流技术的核心,需满足哈希值的随机性尽可能大,算法简单高效,对同一哈希输入能生成多个独立不相关的哈希值等要求。本文针对以上要求,分别以IPv4、IPv6流量为训练集,基于遗传编程设计并自动生成体现IP流量特征的哈希算法GP-Hash,与17种具有代表性的字符串哈希函数在多个测度上进行比较,验证GP-Hash在数据流技术中的可用性。2.提出基于GA-EM的原始流长分布估计算法。抽样技术是降低高速链路中海量流量数据带来的存储和分析压力的最广泛使用的方法之一,但同时抽样会带来原始流量信息损失问题。本文针对期望最大化算法推断原始流长分布时存在的初始值敏感、易陷入局部最优、计算复杂度较高等问题,提出基于遗传算法和期望最大化的GA-EM混合算法,利用遗传算法全局收敛、使用适应值函数指导搜索多峰复杂空间等优点,以更高的精度还原原始流量分布。3.设计并实现高速网络数据流应用检测系统。该系统包含大流检测模块、流长分布估计模块以及可视化模块。在大流检测模块中,基于GP-Hash哈希库,利用Count-Min Sketch对高速网络中的报文分组进行计数统计,检测识别链路中的大流。流长分布估计模块基于样本流信息,使用GA-EM算法对原始流信息进行推断,通过在不同数据源上进行对比实验,验证了对原始流量中活跃流总数以及原始流长分布的估计均能达到更高的精确度。