基于数据挖掘的入侵检测技术

来源 :硅谷 | 被引量 : 0次 | 上传用户:hongqiulongxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 入侵检测技术是通过对计算机网络和主机系统中的关键信息进行实时采集和分析,从而判断出非法用户入侵和合法用户滥用资源的行为,并做出适当反应的网络安全技术,是继数据加密、防火墙等措施之后的又一种安全措施,随着计算机网络技术的不断发展,需要分析的数据急剧膨胀,如何提高检测的效率成为当务之急,而数据挖掘正是解决此问题的一剂良药,首先介绍入侵检测和数据挖掘的相关概念,接着分析采用数据挖掘技术的入侵检测系统的优势和缺点,最后提出一些改进的方向。
  关键词: 数据挖掘;入侵检测;网络安全技术
  中图分类号:F272.9 文献标识码:A 文章编号:1671—7597(2011)1220031-01
  0 引言
  随着Internet迅速发展,网络已成为人们最主要的信息来源。当越来越多的公司将其核心业务向互联网转移的时候,网络安全作为一个无法回避的问题呈现在人们面前,虽然网络信息系统安全的重要性已深入人心,但是由于网络安全问题而导致的各类损失一直呈上升趋势。常用的信息安全机制主要有:数据加密、访问控制、认证技术、数据完整性控制、安全漏洞扫描、防火墙等。传统上,公司一般采用防火墙作为安全的第一道防线。但是,防火墙知识一种被动防御性的网络安全工具,仅仅使用防火墙是不够的。首先,入侵者可以找到防火墙的漏洞,绕过防火墙进行攻击;其次,防火墙对来自内部的攻击无能为力。对于上述提到的问题,一个更为有效的解决方法就是入侵检测系统(IDS)。入侵检测系统主要通过监控网络、系统的状态,行为以及系统的使用情况,来检测系统用户的越权使用以及系统外部的入侵者利用系统的安全缺陷对系统进行入侵的企图。该系统可以弥补防火墙的不足,为网络提供实时的入侵检测并采取相应的防护手段。
  1 入侵检测技术
  入侵主要是指对系统资源的非授权使用,它可以造成系统数据的丢失和破坏,造成系统拒绝对合法用户服务等危害。入侵检测是指“通过对行为、安全日志或审计数据或其他网络上可以获得的信息进行操作,检测到对系统的闯入或闯入的企图”(参见国标GB/T18336)。
  入侵检测系统中常采用的方法主要有:
  1.1 模式匹配
  模式匹配是Kumar在1995年提出的,它主要用于误用检测。该方法已经比较成熟,它的主要优势在于原理简单、可扩展性好,且可以显著减少系统的负担;它的弱点是由于网络攻击方式层出不群,需要不断升级以应对各类新型攻击手法,而且对尚未出现过的攻击手段无能为力。该方法是最传统的入侵检测方法,其中就简单模式匹配来说:算法简单、可扩展性好、可以实时检测,但是误报率高。另外,在当前大数据量需要处理的情况下,它的效率是不能令人满意的。著名的Snort就是采用的这种检测手段。
  1.2 统计分析
  统计分析方法是商业入侵检测系统中最常见的异常检测方法。在统计模型中常用的测量参数包括审计事件的数量、间隔时间、资源消耗情况等。该方法是对用户和系统的正常行为统计标记特征,再设置极限阈值,将检测数据与已设定的正常行为进行比较,如果超限,就认为是入侵行为,而转入下一步的响应处理。例如,某系统一贯都默认使用GUEST帐号登录的,突发有用户使用ADMINISTRATOR帐号登录,那么这就可能是一个入侵行为。该方法的优点是能够检测到未知的入侵和比较复杂的入侵,缺点是误报、漏报率高,且不能适应用户正常行为的突然改变。
  1.3 基于规则的专家系统
  对误用检测和异常检测,专家系统都是用规则来描述行为的,不同的系统与设置具有不同的规则。专家系统会将有关入侵的知识分析转化为如果…那么…,即if-then结构,“如果”部分描述入侵特征,“那么”部分给出针对此入侵行为系统将采取的响应行为。采用基于规则的专家系统的有效性主要由专家系统知识库的完备性决定,而知识库的完备性又由审计记录的实时性与完备性决定。具体实现中,专家系统主要面临的是两个问题:一是难以从入侵手段中抽象出全面的规则化知识,例如建立一个理论上完备的知识库是比较困难的;二是要挖掘处理的数据量相当大,所以效率问题是另一个难点。
  1.4 状态转换分析
  状态转换分析主要用于误用检测。它将入侵过程看作一个行为序列。以状态转换分析表示的黑客攻击过程仅仅与系统状态的变化有关联而与攻击的过程无关。状态转换图也正是贯穿模型的图形化表示。Petri网正是一种类似于状态转换图分析的方法。该方法的缺点是在处理复杂的攻击和与系统状态无关的入侵时会存在问题。
  传统的入侵检测方法在有效性和扩展性方面存在不可避免的局限性,为了克服这些局限性,新的更有效工具正在走进人们视眼,数据挖掘正是其中的佼佼者。
  2 数据挖掘
  2.1 数据挖掘的引入
  数据挖掘最初是数据库中的一项技术,也称数据库中的知识发现(KDD)。数据库知识发现技术通常包括以下步骤:一是数据准备阶段(主要完成数据选取、预处理和数据变换这些子任务),二是数据挖掘,三是结果解析和评价。
  数据挖掘是其中的一个步骤,而且是最关键处理步骤。在数据挖掘过程中首要的是明确挖掘的任务目的,也就是要确立数据处理后获得的模型类别;其次是需要基于挖掘数据的特点和用户及系统需求来确定所选用的开采算法。
  决定数据挖掘质量的因素主要是数据量的质量、规模以及所采用数据挖掘技术的有效性。如果你选择的数据属性不适当或范围不正确,那么他的挖掘质量也就不尽如人意。
  2.2 数据挖掘
  数据挖掘是指从大型数据库中提取人们感兴趣的知识,提取的知识一般可表示为概念、规则、规律、模式等形式。对于入侵检测系统来说,也需要从大量的数据中提取出入侵特征。入侵检测的数据源中包含大量审计记录,而且审计记录大多是文件形式存放的,若单独依靠手工方法去发现记录中异常现象是不够的,操作起来也很不方便。所以数据挖掘强大的分析方法可以用于入侵检测的建模。Wenke Lee等人最早将数据挖掘引入到入侵检测的领域,并系统提出了用于入侵检测的数据挖掘技术框架。
  使用数据挖掘中有关算法对审计数据进行关联分析和序列分析,可以挖掘出关联规则和序列规则。通过这种方法,管理员不再需要手动分析并编写入侵模式,也无需在建立正常使用模式时,凭经验去猜测其特征项,具有很好的可扩展性和适应性。
  
  从完成任务的角度出发,数据挖掘有多种算法,前面学者已经开展了大量的研究工作,取得了很多阶段性的成果。我们重点关注以下几类与入侵检测相关的算法:
  1)建立预测模型法。建立预测模型是指分析已知的数据建立模型并以此来推测未知数据的分布情况。常用的建立预测模型的方法有关联规则、回归分析等。
  2)分类分析算法。分类是指基于挖掘数据的特征将数据分类,并且为每一个类别创建一个模型。常用的分类算法很多,主要有C4.5、RIPPER等。
  3)关联分析算法。关联分析的主要任务就是发掘项目集之间的关联,更具体的说是确定数据记录中各个字段之间的联系。在关联规则挖掘算法中,主要的指标有置信度和支持度;关联分析主要就是挖掘这两个指标比较高的规则。主流的关联分析算法有Apriori算法等。
  4)序列分析算法。序列分析主要用于发掘数据集中存在的序列模式,即分析数据库或数据仓库中某类与时间相关的数据,例如它可以分析得出类似这样的结论“若A股票连续上涨若干天且B股票无明显下跌趋势,则C股票在一周之内上涨的可能性为80%”。常见的序列分析算法主要有 ArpioriAll算法等。
  除此而外,还有偏差检测、模式相似性挖掘等,在此就不作赘述。
  2.3 数据挖掘的优势与不足
  在入侵检测中采用数据挖掘技术优势如下:能以可接受的效率处理大量数据给出决策信息,针对不同的途径所取得的不同数据源可以分析其特征以采用更合适的挖掘算法,能根据新出现的攻击行为和方法动态更新规则库使入侵检测系统具有一定的柔性。
  现有应用在入侵检测中的数据挖掘有如下不足:对入侵行为的特征性描述信息量不足,以至于一些误报和漏报难以避免;取得高质量的训练数据集合比较困难,所以在处理首次出现的攻击行为上尚有缺陷。
  3 小结
  本文对基于数据挖掘的入侵检测技术展开了讨论,分析其算法优势和不足之处,下一步的工作将针对各类网络数据的特征对数据挖掘的算法进行改进(例如针对建立规则库时采用的关联规则挖掘的Apriori算法进行改进)提高其检测效率将是下一步研究的重点。
  
  参考文献:
  [1]罗守山,入侵检测,北京:北京邮电大学出版社,2004.
  [2]唐正军,李建华,入侵检测技术,北京:清华大学出版社,2004.
  [3]付忠勇,网络安全管理与维护,北京:清华大学出版社,2009.
  [4]Guowei Wu,Lin Yao,Kai Yao,An Adaptive Clustering Algorithm for Intrusion Detection,Information Acquisition,2006 IEEE Internation
  Al Conference on 20-23 Aug.2006:1443-1447.
其他文献
第三节心律失常心电图 (四) 激动传导失常 1.传导途径异常一预激症候群(见第十九讲) 2.生理的传导障碍一干扰与脱节 (1)概念:在心脏各部心肌或心脏传导组织中,当受到一个激
改革开放以来,国家检察机关查办的腐败案件,多是政府高官,或是企业高管,或是关键岗位人员。并普遍地认为,普通员工没有腐败的环境和条件,不存在什么腐败。而近年来,一些国有
那一年,我进人生命的低谷。最疼爱我的母亲离我而去,接着,工作中出现重大失误使我被解雇,随后,更令我伤心的事发生了,妻子莱雅爱上别的男人要跟我离婚。我对生活彻底绝望。一
本文报告6例急性非淋巴细胞性白血病采用小剂量阿糖胞苷(Ara-C10mgq12h皮下注射,15~21天为一疗程)治疗,4例获得完全缓解,其缓解期分别为30~+,240~+,42~+,180~+天。 In this p
高血压危象和脑病是内科常见的急症,往往可以危及生命,不但需要诊断正确,而且需要处理得当。高血压危象和脑病常发生在急进型高血压病病人,也可发生在原发性高血压的第Ⅱ、
1.Now Tom with his classmates____football on the playground.  A.play  B.are playing  C.plays  D.is playing  2.The audience__so large that no seat was left unoccupied in the great hall.  A.is  B.are  C
目的 观察失苔刺知丸对脑缺血再灌注大鼠海马区神经干细胞增殖情况的影响,探究其可能的作用机制.方法 将204只SD雄性大鼠随机分为空白组(12只)、假手术组(12只)、模型组(36只
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
心肌收缩性和舒张性是指心肌舒缩过程中与其生化反应和生物物理过程有关的一种特性。多年来,人们力图寻找一种既能较好地反映心肌舒缩性能又不受前后负荷影响的方法。自60年
党的十六大确定了全面建设小康社会的奋斗目标。对我们来说 ,是一个必须紧紧抓住并且大有作为的重要战略机遇。培养数以万计的高素质劳动者和初中级专门人才 ,是关系到我县经