论文部分内容阅读
随着网络技术的飞速发展,计算机网络被广泛应用到人类活动的各个领域,网络对社会经济和人们生活的影响越来越大,网络安全问题也越来越受到广泛的关注。面对严峻的网络安全的形势,迫切需要行之有效的网络安全保障技术。入侵检测技术就是一种重要的网络安全技术。入侵检测系统目前存在这报警率高、自身攻击能力差、对精巧以及变异的攻击检测能力低等问题,根据以上问题本文提出了一个新的基于数据挖掘的网络入侵检测系统的设计,以提高入侵检测系统的综合性能。数据挖掘技术具有从大量数据中提取有用信息的能力,而入侵检测正是一个进行数据分类和过滤的过程,可以将数据挖掘技术应用于入侵检测中,使其具有较好的扩展性和自适应性。本文研究了入侵检测的发展现状和数据挖掘在入侵检测中的必要性。数据挖掘具有良好的智能性,数据挖掘可以从大量的数据中提取出隐藏在其中的规则。因此将数据挖掘引入入侵检测可以减少人为的参与,使得系统具有更好的智能性。而且基于数据挖掘的检测系统不依赖于检测模型,对新的攻击方式或者已知攻击的变种都可以很好的检测,自适应能力比较强。数据挖掘可以提取信息中的有用特征进行挖掘,自动对数据进行处理。因此具备较高的检测率。本文分析了入侵检测中常用到的数据挖掘方法,并提出了一个新的入侵检测模型。论文详细描述了模型中各个模块的功能和作用,并给出了相关模块的具体实现方案。训练模块部分,聚类分析模块负责将正常数据和异常数据区分出来,后续采用的关联规则和序列模式分析负责挖掘其中存在的误用规则和异常规则。系统中规则的格式采用Snort中规则的格式。由于形成的规则可能与Snort规则不相符,因此需要对规则进行转换,再存入规则库。对检测数据首先进行关联规则和序列模式挖掘,提取出其中存在的关联规则模式和序列规则模式。首先进行误用检测。如规则匹配的话则代表入侵发生,。如果规则不匹配,继续与误用规则库的规则进行模式匹配。异常规则库中存在该规则的话,就证明改数据是正常数据。如果仍然不匹配的话,交由联动控制中心处理。另外,本文详细对比了聚类算法中的K-means算法和基于聚类的无指导的算法CBUID;关联规则算法中的Apriori算法和DHP算法。根据系统的需要,选择出了最合适的算法。序列模式分析部分,本文采用了PrefixSpan算法。本文实验所采用了的数据是KDDCup99数据。该数据来自美国空军局域网的模拟数据。该数据的收集长达9个星期,包括500万次会话。这些数据包括训练数据和测试数据。训练数据均有标识,测试数据均无标识。并且其中的4中攻击仅出现在测试攻击集中。其中的网络连接共有41个属性特征,包括34个连续属性值和7个离散的属性值。数据的特征被分为四类:分为网络连接基本特征、网络连接内容特征、网络连接流量特征。后续对数据进行了预处理和规则提取的相关工作。经系统的整体验证,该论文提出的基于数据挖掘的网络入侵检测系统具有较高的检测率和较低的误报率。而且实验表明,采用将三种数据挖掘算法相结合,比单独使用聚类算法具有更高的检测效率和更低的误报率。