论文部分内容阅读
随着网络通信技术的迅速发展、互联网应用的持续深化、所承载信息的日益丰富,互联网已经成为人类社会重要的基础设施。但网络中配置错误、DDoS攻击、蠕虫爆发、突发访问等事件时有发生,互联网面临着严峻的安全挑战。异常检测因为能检测未知攻击而被学术界和工业界人士所重视,研究者提出了大量异常检测方法和系统,但是随着网络带宽的持续增长和网络攻防博弈的持续进行,网络本身处于动态演化的过程,网络攻击手段和方法也在不断演化,导致异常检测系统在检测精度、运行效率、安全性和易用性方面都面临着严峻挑战。如异常检测系统泛化能力差和网络流量的动态性、突发性和漂移性导致检测精度较差;基于特征签名的入侵检测系统不能适应网络带宽的高速增长;各类异常检测系统容易被攻击者绕过;异常检测系统训练数据难于获取等。因此在大规模通信网络环境下,综合考虑多方面要素,提出具有高检测精度和高运行效率的异常检测方法,并优化已有检测算法具有十分重要的意义,也是全球网络安全领域学术界和工业界共同关注的前沿性科学问题。本文首先分析了已有各类流量异常检测方法,重点分析了异常检测系统在检测精度、运行效率、安全性和易用性方面的不足,针对这些不足,结合了聚类、关联分析、数据流、信息论、在线学习等技术,从不同应用场景出发提出了两种异常检测方法,并针对已有异常检测系统提出了一系列优化策略,所取得的主要研究成果如下:1、提出了一种基于多维熵序列分类的骨干网上异常检测方法。在已有的研究中基于熵的检测方法因具有较高的检测精度而被研究者广泛采用,但是熵值的计算算法时间和空间复杂度较高,熵序列各时间点之间以及多维熵序列之间的相关性被研究者所忽视。研究发现,网络攻击在某些维度上通常聚集在固定的特征值上,在另外一些维度上则在取值空间上均匀散布,而且网络流量本身在各个维度上呈现Power-Law分布特性,很容易把网络流区分为大流量和小流量,基于上述分析提出了高效的多维熵值估算算法。各个维度上的熵序列存在较强的相关性,为了提高检测精度采用OCSVM对多维熵序列进行分类,同时利用不同时刻的多维熵序列构成的检测向量之间的连续变化趋势优化检测精度。在真实的骨干网流量数据集上,从运行效率和检测精度两方面进行实验,验证了所提方法相比传统的熵检测方法运行效率更高,检测效果更好。2、提出了一种基于Filter-ary-Sketch的流量异常检测与过滤方法。通常的异常检测系统只能在异常发生时发去告警,但是网络管理者在没有详细异常信息的情况下无法对异常告警做出反应,不能迅速采取有效的方法抑制该异常带来的影响。同时,基于特征分布的检测方法虽然具有较高的检测精度,但是其存在安全缺陷,网络攻击者可以构建特殊的攻击绕过该类检测系统。研究发现,可以把网络流量看作数据流,在该流量数据流上构建Hash概要数据结构,获取流量在各个维度上的Hash直方图,在Hash直方图上采用OCSVM进行分类来检测异常。该方法既能规避基于熵的检测方法存在的安全缺陷,又能有效提高检测精度,最关键的是它能够在异常发生后,按照Hash直方图中保存的流量概要信息,采用相对熵定位导致分布差异的异常桶,在此基础上提出了恶意数据包过滤算法。通过骨干网上真实流量数据从运行效率、检测精度和过滤算法三个方面进行了对比实验,验证了所提算法在时间和空间复杂度上虽然比传统算法高,但是只要合理控制参数依然能够达到满意的效率;在检测精度上同样能够达到基于熵的方法类似的精度;特别是所提方法能够高效地过滤恶意数据包。3、提出了一种基于检测统计量相关性分析的检测精度优化方法。已有多种异常检测方法,不同的检测方法采用了不同的特征统计量,特征统计量不同时刻的取值之间、同一时刻不同特征统计量之间都存在相关性。本文首先分析了同一统计量时间上的相关性,正常情况下可以把特征统计量看作随机过程,采用支持向量回归模型对该统计量进行预测,而且异常发生时该随机过程在连续多个时间窗口都会出现类似的偏差。随后分析了不同统计量之间存在的相关性,无论是在正常情况下还是在异常发生时各统计量都或多或少呈现出相关性,且各个检测统计量对异常的检测能力存在较大差异。在上述分析的基础上,提出了多窗口关联检测算法,利用时间上的相关性提高单个检测系统的精度;提出了多测度关联检测算法,利用各统计量之间的相关性提高整个系统的检测精度。通过骨干网上真实流量数据,选取了几类典型的检测方法,验证了所提方法能够有效提高整个系统的检测精度。4、提出了流量异常检测中分类器的提取与训练方法。基于分类或聚类的方法是流量异常检测中很重要的一类方法,但是网络流量本身具有漂移特性,网络攻击手段和方法也在不断演化,异常检测模型也需要不断更新,这样才能一直精确的刻画网络的正常模式。但是流量异常检测中分类器的提取与训练方法却往往被研究者所忽视。本文综合考虑多个不同评价标准,对比分析了分类向量的构建和分类器的选择问题,提出了采用Hash直方图构建分类向量,采用OCSVM作为分类器能够达到较好的运行效率、较高的检测精度并能够规避其他方法存在的安全缺陷。随后提出了自适应的在线分类器训练方法,为了进一步提高检测精度和运行效率,借鉴上一章中的结论,提出了基于TRW的检测精度优化和新增样本选择算法。在真实的骨干网流量数据集上,从整个系统检测精度和训练算法两方面进行了对比实验,验证了所提算法能够有效提高整个系统的检测精度,通过在线训练算法后的分类器比普通分类器分类效率更好,训练成本更低。综上所述,本文研究工作针对大规模通信网络流量异常检测中存在的检测精度、运行效率、安全性和易用性方面存在的问题,围绕异常检测及其优化问题涉及的若干个关键技术展开研究。本文对于促进该问题的理论研究和实用化具有一定的理论和应用价值。