论文部分内容阅读
网络入侵检测系统研究已成为计算机网络安全领域中的研究热点。建立网络入侵检测系统的核心是为正常行为或异常行为模式建模。由于大多数网络行为表现为一组与时间相关的序列,而序列模式挖掘研究的正是与时间相关的数据。因此,采用序列模式挖掘算法构建网络入侵检测模型,能够更好地表现网络行为。
本课题对多种序列模式挖掘算法进行了深入分析,从算法基本思想、数据存储结构、算法执行效率等方面对几种经典的序列模式挖掘算法进行分析比较之后,发现等价类序列模式算法(SPADE)具有较高的挖掘效率。它使用了等价类的概念和“垂直”数据库的存储思想,完全避免了经典Apriori算法中多次扫描数据库和采用哈希树作为主要存储结构的缺点,使得扫描数据库的次数大大减少,对序列支持度的计算也简单高效。但SPADE算法效率仍然有提升的空间。由于在挖掘序列模式的过程中会产生大量冗余候选集,限制了算法效率的提高。我们借鉴通用序列模式(GSP)算法中候选集的产生过程,通过有针对性地对两个序列进行中间匹配来产生候选集,达到了减少冗余候选集产生、提高算法效率的目的。本课题使用改进后的SPADE算法从网络连接记录中挖掘序列模式,据此构建网络异常检测模型。
多数网络事件与时间相关,在为入侵检测系统构建检测模型时,选取一些与时间相关的统计特征属性来表示网络连接记录能够改善模型的检测精度。而这些统计特征属性通常是数值型的,这就存在一个问题:对数值型属性使用序列模式挖掘会出现所谓的“边界过硬”问题,从而导致检测模型的灵活性和适应性都很差。同时网络安全事件本质上也具有模糊性,正常行为和异常行为之间没有非常明确的界线,它们之间应当有一个平滑的过渡。本文引入模糊逻辑理论来解决上述问题。为网络连接记录中的每个统计特征属性划分模糊集,指定隶属函数,用隶属度集合的形式来标识统计属性。然后用改进的SPADE算法进行模糊序列模式挖掘,在挖掘过程中,使用隶属度贡献来计算序列支持度,有效地解决了从网络连接记录定量属性中挖掘序列模式的问题。
已有的检测模型是用挖掘生成的全部序列模式规则来建立网络行为模式库,这样做的弊端在于:最后建立的行为模式库中存在许多冗余低效规则,浪费了大量存储空间;而且在检测阶段,这些规则也会参与模式比较,又浪费了大量检测时间,甚至还会导致误报。我们提出“短规则存在”原则,采用规则移项、消除属性集合和去除可重组规则这三种规则裁减策略来剔除冗余规则,从而缩减了模式库,加快了检测过程,同时也降低了误报率。
本课题主要是进行了网络入侵检测建模方法的研究,并提出了一个基于模糊序列模式的网络异常检测模型。通过理论分析和仿真实验证明,本文提出的模型不仅具有检测异常行为的实际能力,而且与传统模型相比,由于引入了模糊逻辑理论和规则裁减技术,我们的模型具有更简洁的行为模式库和更低的误报率,检测效率和检测性能都得到了较大的改善。