论文部分内容阅读
随着互联网的快速发展,人们对互联网的依赖性越来越大,网络安全问题也日益突出.网络信息的过滤是网络和信息安全的核心关键技术之一.随着网络带宽和流量的"超摩尔"增长、对检测准确性要求的提高、以及网络应用和服务的迅速发展变化,对高速网络进行安全监测和内容监管面临着严峻的挑战.
在对性能要求很高的高速网络入侵检测或内容过滤系统中普遍采用的是基于规则匹配的过滤方法.经过长期的积累,已经研究出多种被普遍认可的高效算法,并接近或达到了理论上最优的时间复杂度.从匹配算法本身来看,似乎已经达到极限,无法再优化了,但这些理论分析都是以待检测样本的独立性为前提,而分析网络流的特征我们发现实际上网络流中的数据并不是相互独立的,并且样本与匹配规则以及规则集内部都存在着相关性.基于这一原理,论文提出通过规则优化方法提高匹配性能的思路,提出并实现了候选模式的提取、筛选和规则集约简等一系列算法,并通过理论分析和实验数据论证了引入正例和反例规则、对规则集进行优化后,可以在总体检测准确率和召回率保持很高水平的情况下大大降低匹配的开销.
由于现实网络中流量突发现象的普遍存在,在实际应用中系统的过载问题是无法避免的,系统过载状态对过滤能力的损害极大,远超过直观上看到的丢包率.针对这种情况,我们采取牺牲少量的准确率和召回率来提高系统检测能力的策略,并使用采样和规则泛化等近似处理技术来尽可能地保持系统在过载情况下的总体过滤能力.
论文最后结合实际应用需求和我们的实践经验,提出了一个完整的网络信息实时过滤系统的设计架构,论述了其中主要模块的原理、算法和实现机制,并将规则优化和过载处理等技术应用到该系统中,将理论与实际应用很好地结合起来.