论文部分内容阅读
入侵检测技术是继防火墙、数据加密等传统安全保护措施之后的新一代安全保障技术。随着网络的发展,网络数据流量急剧增加,传统的基于人工建模的入侵检测技术已无法适应新的网络环境。为从海量数据中提取出有用信息,人们提出了基于数据挖掘的入侵检测技术。由于入侵手段的不断提高,许多入侵行为往往没有明显的字符串匹配特征,其中任何单独的一条报文或命令看似正常,但一系列按时间顺序排列的报文或命令就构成一次攻击。为了找出这种攻击的规律,本文将序列模式挖掘技术引入入侵检测系统。序列模式挖掘算法以某种序列攻击的多个样本作为训练数据,挖掘出在一个样本中只出现一次,而在多个样本中频繁出现的攻击行为特征序列,并依次建立检测模型。序列模式挖掘算法克服了关联规则算法中不能反映事件在时间顺序上的前后相关性的缺点,可以检测出应用层R2L(remote to local)和U2R(user to root)攻击,这是目前入侵检测中的一个难点,从而有效地提高了攻击的检测率。论文首先介绍了入侵检测和数据挖掘起源、发展及研究现状。然后阐述了传统的序列模式基本概念,并分析了这些算法的优缺点。接着讨论Jay Ayres,Johannes Gehrke等于2002年在SIGKDD国际会议上提出的新型的序列模式算法SPAM。该算法采用位图表示数据便于有效地计数,快速计算支持度。为进一步提高SPAM算法在计算支持度过程的时间、空间效率,对SPAM进行改进。当第一次扫描数据库时,构建1-length的Sequence-extented序列的项的最后位置列表,对每个顾客序列可将项的最后位置与前缀边界位置比较,直接判断该项能否追加到前缀序列后。如果候选项的最后位置大于前缀边界位置,则该候选项的支持度加1。采用位图表示策略避免这样的比较过程。当第一次扫描数据库记录序列最后位置信息时,构建每一位顾客序列的项在当前位置后是否存在表,检查该表可确定一个候选序列是否在当前位置后,积累候选序列的支持度时只需检查相应项在项是否存在表中的位向量,从而避免比较和逻辑与运算。这些修改仅仅用在sequence-extented过程。在本论文中,改进的SPAM算法称为MY-SPAM。进一步,构建并详细叙述基于序列模式算法MY-SPAM的入侵检测模型。最后,文章对提出的基于序列模式算法MY-SPAM的入侵检测模型进行了实验,MY-SPAM运行在KDD CUP 99数据集的环境中,且输入不同的最小支持度。并对实验结果进行了分析。实验结果表明MY-SPAM在序列模式算法的效率,以及应用在入侵检测模型的可行性和精确性方面超过SPAM。