论文部分内容阅读
【摘 要】在深入分析现有入侵检测系统模型运行机制的基础上,针对已有检测机制存在的对于未知攻击行为无能为力、漏报率较高、检测效率低以及缺少规则库自动扩充机制等问题,结合数据挖掘技术的相关知识,对于提高入侵检测系统的准确性及完备性有很大的参考价值。
【关键词】入侵检测 数据挖掘 数据价值
一、数据入侵检测的分析方法及缺陷
数据入侵检测作为继“数据加密”、“防火墙”等传统安全防护措施之后的新一代安全保障技术,已有效地补充和完善了其他安全技术和手段的不足。然而,随着网络带宽的不断增加以及网络处理速度的不断加快,现有入侵检测系统会出现检测率低和漏报率高的问题。因此,研究现有入侵检测模型,改善现有入侵检测系统存在的问题,对于增强现代网络的网络安全具有重要的理论和现实意义。
入侵检测归根结底处理的是数据,因此,实际上入侵检测的过程完全可以看作是一个数据处理的过程[1]。入侵检测的分析方法主要有以下三种类型:
(一)基于主机的数据入侵检测分析方法
数据源一般都是使用操作系统的审计以及跟踪日志。基于主机的检查分析方法会主动与主机系统进行交互,从而获得不存在于系统日志中的信息来检测入侵。这种类型的数据检测系统对网络流量不敏感,不需要额外的硬件.效率高,并且能准确定位入侵,及时进行反应,但是其弊端是占用主机资源,依赖于主机的可靠性,所能检测的攻击类型有限,并不能检测网络攻击。
(二)基于网络的数据入侵检测分析方法
基于网络的数据入侵检测分析方法一般都是通过监听网络上传输的数据流,处理获取的网络数据,从中提取有用的信息。然后通过匹配已知的攻击特征,或者与正常网络行为原型来相比较,从而识别攻击事件。这种检测系统可应用于不同的操作系统平台,不依赖于某一操作系统;其配置简单,并不需要任何特殊登录机制及审计;其可检测协议攻击、及特定环境的攻击等多种攻击。它的弊端是只能监视本网段的活动,不能监控主机系统的实时状态,精确度不够准确。
(三)分布式的数据入侵检测分析方法。
分布式入侵检测系统一般都是由多个部件组成的分布式结构。关键主机上利用的是主机入侵检测,网络关键节点上利用的是网络入侵检测。这种入侵检测分析方法是一并分析主机系统的审计日志和网络的数据流,从而判断被保护系统是否受到攻击[2]。
二、利用数据挖掘技术方法分析入侵检测结果
(一)数据挖掘技术方法
数据挖掘技术是数据库研究领域一个很有应用价值的新领域,它融合了人工智能、机器学习、统计学、以及可视化和信息科学等多个领域的理论和技术。数据挖掘的最终目的是在大量难以处理的数据中发现隐含的、或未知的、或非平凡的及有潜在应用价值的信息或模式,并将其以可理解的方式表达出来,从而为用户的决策提供支持。目前,数据挖掘技术的发展已经成为一个热门的研究领域,具有紧迫的现实需求。
目前数据挖掘方法主要有以下四类,分为分类挖掘、聚类挖掘、关联挖掘和序列挖掘。利用这四类方法来进行入侵检测的方式分别为:
第一,将分类挖掘的方法应用于入侵检测,可以先使用带有正常数据和异常数据分类标记的训练数据集,再选取某种方法来构造出适用于入侵检测的分类器。最后再采用此分类器对捕获的网络数据进行归类,将数据归类为正常和异常两种,这样就可以判断是否有入侵发生了。
需要注意的是,分类器对于最终判断入侵发挥着重要作用,因此分类器分类性能的好坏,直接关系到入侵检测的准确率,因此,在使用分类器检测入侵之前,要反复对分类器准确率进行评估,以期望得到最佳效果的分类器[8]。
第二,要将聚类挖掘应用到入侵检测当中,那么检测数据中正常数据与异常数据要满足两个条件:一是在数量上正常数据要远远大于异常数据,二是正常数据与异常数据存在很大差异。而现实中的网络数据基本上都能满足这两个条件。因此,聚类挖掘也是可以应用到入侵检测当中的。可以利用不加类标识的数据进行训练,根据数据的特点对其进行分类。然后得出正常类数据存在的特点,以此判断某一行为是否是入侵。
第三,关联挖掘是最早被应用到入侵检测中的数据挖掘方法。关联规则最大的优势是发现数据库中记录不同特征属性之间的联系。因此最直接的可以用关联规则来建立基于特征匹配的入侵检测系统规则库的建立。此外,还可以将关联挖掘与其它挖掘方法结合起来。例如与分类挖掘相结合,由于分类挖掘通常是基于数据对象的属性来分类的,因此分类属性的选择对建立的分类器性能的好坏有着很大的影响。如果事先用关联挖掘的方法发掘出属性之间的关联关系,用它来指导对属性的选择,会在很大程度上提高分类器的准确性。
第四,序列挖掘关注的是事件出现的先后次序,主要解决类似“在某段事件内,首先具有特征属性M的事件发生了,接着具有特征属性N的事件发生,最后具有特征属性P的事件也发生了,即出现了特征属性出现序列M→N→P,且频度较高”这类含有高频度序列的问题。而入侵检测中也存在这样的攻击,如某些攻击行为的发生往往蕴含着一定的规律,某些黑客在对系统发起攻击之前多是要先扫描端口,接着试验密码,这样就可以据此判断可能有攻击发生。而且,序列挖掘也可与其它挖掘方法结合,可以是检测更加准确。
(二)利用数据挖掘技术来优化ERP系统中入侵检测
ERP系统是中石油集团公司“十一五”信息技术总体规划的核心,涉及面广、跨专业、跨部门、跨系统,与油田勘探、开发、生产经营管理等各业务领域紧密联系,通过规范计划、物资、设备、财务以及油气销售的业务流程,搭建财务与业务集成的经营管理平台,来实现项目的独立核算及考核,从而实现人、财、物等资源的有效调配,为勘探与生产主体经营管理需求来提供有力的技术支撑。正因为其的牵涉面甚广,其对信息的安全性要求特别得高。 但是,也因为其涉及的部门、专业、系统多,ERP系统出现的入侵也是非常复杂的,想要通过传统的基于误用检测方法的模式匹配方式来及时检测攻击入侵的发展是很难实现的。
然而ERP系统可以使用基于异常检测的方法检测来入侵。因为它不是进行模式匹配,而是建立了系统正常工作时的模式,而不就每一个信号进行检测,所以不存在由于无该攻击规则而无法检测的问题,能够表现出较好的自适应性。比如,有一个来自某地址的远程呼叫程序,采用信号匹配的话,可能很容易迷惑检测系统,但如果采用异常检测的话,因为系统会发现以前从未有来自这个地址的RPC连接,所以它就很容易地被检测出来。
另外,在ERP系统应用的过程当中,将数据挖掘应用于入侵检测,可以采用序列挖掘的方法,提取出从正常行为是发生时的某种序列规律,从而排除那些因正常的行为而产生的信号,因而具有较低的误警率。与此同时还采用异常检测方法,能够发现新的攻击,从而减少的漏报的产生。
数据挖掘技术在ERP系统的入侵检测的应用,主要通过分析有用的历史数据、提取用户的行为特征、归纳入侵行为的规律,进而为入侵检测建立比较完备的规则库。此过程主要分为以下几步:1.数据的收集,ERP入侵检测系统的数据主要来源于网络。2.数据的预处理,是指在主要的处理前对数据进行的一些处理。例如将不规则分布的测网经过插值转换为规则网的处理,从而便于计算机的下一步运算。这一过程的好坏直接影响规则的准确性以及用户行为特征的定性。3.数据的挖掘,是在通过分析预处理过数据,来提取用户的行为特征,归纳并更新入侵行为规则,最终建立起规则库。
下面是基于数据挖掘的ERP网络入侵检测系统的模型结构
(如下图所示)
此过程是将ERP系统从网络中所获取的网络数据包全部发送到数据预处理器,通过数据预处理器对网络数据包进行再加工,利用关联规则确定具有代表性的规则后放人关联规则集,并利用聚类规则进行聚类优化。可通过规定的闭值,从而剔除正常的数据,再通过误用检测器进行数据检测。若误用检测器没有检测到攻击,再将数据发送到异常检测器来检测。通过这一步操作将过滤掉大量正常数据,从而便于以后的数据挖掘。其优点是通过对数据仓库的不断更新,来不断地完善异常检测器和误用检测器,从而避免了重复检测同一类型的数据,大大减轻了入侵检测系统的负荷。
由于勘探与生产ERP涵盖总部、勘探与生产分公司和16家油气田企业,入侵检测系统的数据处理负担也在不断加大,包括各种网络流量,警报记录,日志记录等。而数据挖掘技术的最大特点就是处理海量数据,因此采用它可以很好解决入侵检测面临的高数据量的问题。从网络流量上可以过滤大部分正常数据,减轻攻击检测的负担;同时可以对大量告警记录进行整理,减轻管理员的负担。
三、结论
总之,应用数据挖掘技术改善了入侵检测系统的系统性能,改善了传统检测技术存在的缺点,使其成为一个集智能性、实时性于一体的智能化系统,具有很好的发展前景。
参考文献:
[1]高立丽,张娅,刘海梅. 网络入侵检测发展现状及应用研究[J]. 科技信息,2011,(1),92.
[2]谭建豪,章兢,黄耀,等. 数据挖掘技术[M]. 北京:中国水利水电出版社,2009.
[3]吕晓玲,谢邦昌. 数据挖掘方法与应用[M]. 北京:中国人民大学出版社,2009,1-2.
[4]薛惠锋. 智能数据挖掘技术[M]. 西安:西北工业大学出版社,2005,2.
[5]纪希禹. 数据挖掘技术应用实例[M]. 北京:机械工业出版社,2009,4.
[6]Song Jiali. Extracting Network Intrusion Detection Model Based on Classification Mining [J]. Network Security Technology & Application, 2006, (9), 21-23.
【关键词】入侵检测 数据挖掘 数据价值
一、数据入侵检测的分析方法及缺陷
数据入侵检测作为继“数据加密”、“防火墙”等传统安全防护措施之后的新一代安全保障技术,已有效地补充和完善了其他安全技术和手段的不足。然而,随着网络带宽的不断增加以及网络处理速度的不断加快,现有入侵检测系统会出现检测率低和漏报率高的问题。因此,研究现有入侵检测模型,改善现有入侵检测系统存在的问题,对于增强现代网络的网络安全具有重要的理论和现实意义。
入侵检测归根结底处理的是数据,因此,实际上入侵检测的过程完全可以看作是一个数据处理的过程[1]。入侵检测的分析方法主要有以下三种类型:
(一)基于主机的数据入侵检测分析方法
数据源一般都是使用操作系统的审计以及跟踪日志。基于主机的检查分析方法会主动与主机系统进行交互,从而获得不存在于系统日志中的信息来检测入侵。这种类型的数据检测系统对网络流量不敏感,不需要额外的硬件.效率高,并且能准确定位入侵,及时进行反应,但是其弊端是占用主机资源,依赖于主机的可靠性,所能检测的攻击类型有限,并不能检测网络攻击。
(二)基于网络的数据入侵检测分析方法
基于网络的数据入侵检测分析方法一般都是通过监听网络上传输的数据流,处理获取的网络数据,从中提取有用的信息。然后通过匹配已知的攻击特征,或者与正常网络行为原型来相比较,从而识别攻击事件。这种检测系统可应用于不同的操作系统平台,不依赖于某一操作系统;其配置简单,并不需要任何特殊登录机制及审计;其可检测协议攻击、及特定环境的攻击等多种攻击。它的弊端是只能监视本网段的活动,不能监控主机系统的实时状态,精确度不够准确。
(三)分布式的数据入侵检测分析方法。
分布式入侵检测系统一般都是由多个部件组成的分布式结构。关键主机上利用的是主机入侵检测,网络关键节点上利用的是网络入侵检测。这种入侵检测分析方法是一并分析主机系统的审计日志和网络的数据流,从而判断被保护系统是否受到攻击[2]。
二、利用数据挖掘技术方法分析入侵检测结果
(一)数据挖掘技术方法
数据挖掘技术是数据库研究领域一个很有应用价值的新领域,它融合了人工智能、机器学习、统计学、以及可视化和信息科学等多个领域的理论和技术。数据挖掘的最终目的是在大量难以处理的数据中发现隐含的、或未知的、或非平凡的及有潜在应用价值的信息或模式,并将其以可理解的方式表达出来,从而为用户的决策提供支持。目前,数据挖掘技术的发展已经成为一个热门的研究领域,具有紧迫的现实需求。
目前数据挖掘方法主要有以下四类,分为分类挖掘、聚类挖掘、关联挖掘和序列挖掘。利用这四类方法来进行入侵检测的方式分别为:
第一,将分类挖掘的方法应用于入侵检测,可以先使用带有正常数据和异常数据分类标记的训练数据集,再选取某种方法来构造出适用于入侵检测的分类器。最后再采用此分类器对捕获的网络数据进行归类,将数据归类为正常和异常两种,这样就可以判断是否有入侵发生了。
需要注意的是,分类器对于最终判断入侵发挥着重要作用,因此分类器分类性能的好坏,直接关系到入侵检测的准确率,因此,在使用分类器检测入侵之前,要反复对分类器准确率进行评估,以期望得到最佳效果的分类器[8]。
第二,要将聚类挖掘应用到入侵检测当中,那么检测数据中正常数据与异常数据要满足两个条件:一是在数量上正常数据要远远大于异常数据,二是正常数据与异常数据存在很大差异。而现实中的网络数据基本上都能满足这两个条件。因此,聚类挖掘也是可以应用到入侵检测当中的。可以利用不加类标识的数据进行训练,根据数据的特点对其进行分类。然后得出正常类数据存在的特点,以此判断某一行为是否是入侵。
第三,关联挖掘是最早被应用到入侵检测中的数据挖掘方法。关联规则最大的优势是发现数据库中记录不同特征属性之间的联系。因此最直接的可以用关联规则来建立基于特征匹配的入侵检测系统规则库的建立。此外,还可以将关联挖掘与其它挖掘方法结合起来。例如与分类挖掘相结合,由于分类挖掘通常是基于数据对象的属性来分类的,因此分类属性的选择对建立的分类器性能的好坏有着很大的影响。如果事先用关联挖掘的方法发掘出属性之间的关联关系,用它来指导对属性的选择,会在很大程度上提高分类器的准确性。
第四,序列挖掘关注的是事件出现的先后次序,主要解决类似“在某段事件内,首先具有特征属性M的事件发生了,接着具有特征属性N的事件发生,最后具有特征属性P的事件也发生了,即出现了特征属性出现序列M→N→P,且频度较高”这类含有高频度序列的问题。而入侵检测中也存在这样的攻击,如某些攻击行为的发生往往蕴含着一定的规律,某些黑客在对系统发起攻击之前多是要先扫描端口,接着试验密码,这样就可以据此判断可能有攻击发生。而且,序列挖掘也可与其它挖掘方法结合,可以是检测更加准确。
(二)利用数据挖掘技术来优化ERP系统中入侵检测
ERP系统是中石油集团公司“十一五”信息技术总体规划的核心,涉及面广、跨专业、跨部门、跨系统,与油田勘探、开发、生产经营管理等各业务领域紧密联系,通过规范计划、物资、设备、财务以及油气销售的业务流程,搭建财务与业务集成的经营管理平台,来实现项目的独立核算及考核,从而实现人、财、物等资源的有效调配,为勘探与生产主体经营管理需求来提供有力的技术支撑。正因为其的牵涉面甚广,其对信息的安全性要求特别得高。 但是,也因为其涉及的部门、专业、系统多,ERP系统出现的入侵也是非常复杂的,想要通过传统的基于误用检测方法的模式匹配方式来及时检测攻击入侵的发展是很难实现的。
然而ERP系统可以使用基于异常检测的方法检测来入侵。因为它不是进行模式匹配,而是建立了系统正常工作时的模式,而不就每一个信号进行检测,所以不存在由于无该攻击规则而无法检测的问题,能够表现出较好的自适应性。比如,有一个来自某地址的远程呼叫程序,采用信号匹配的话,可能很容易迷惑检测系统,但如果采用异常检测的话,因为系统会发现以前从未有来自这个地址的RPC连接,所以它就很容易地被检测出来。
另外,在ERP系统应用的过程当中,将数据挖掘应用于入侵检测,可以采用序列挖掘的方法,提取出从正常行为是发生时的某种序列规律,从而排除那些因正常的行为而产生的信号,因而具有较低的误警率。与此同时还采用异常检测方法,能够发现新的攻击,从而减少的漏报的产生。
数据挖掘技术在ERP系统的入侵检测的应用,主要通过分析有用的历史数据、提取用户的行为特征、归纳入侵行为的规律,进而为入侵检测建立比较完备的规则库。此过程主要分为以下几步:1.数据的收集,ERP入侵检测系统的数据主要来源于网络。2.数据的预处理,是指在主要的处理前对数据进行的一些处理。例如将不规则分布的测网经过插值转换为规则网的处理,从而便于计算机的下一步运算。这一过程的好坏直接影响规则的准确性以及用户行为特征的定性。3.数据的挖掘,是在通过分析预处理过数据,来提取用户的行为特征,归纳并更新入侵行为规则,最终建立起规则库。
下面是基于数据挖掘的ERP网络入侵检测系统的模型结构
(如下图所示)
此过程是将ERP系统从网络中所获取的网络数据包全部发送到数据预处理器,通过数据预处理器对网络数据包进行再加工,利用关联规则确定具有代表性的规则后放人关联规则集,并利用聚类规则进行聚类优化。可通过规定的闭值,从而剔除正常的数据,再通过误用检测器进行数据检测。若误用检测器没有检测到攻击,再将数据发送到异常检测器来检测。通过这一步操作将过滤掉大量正常数据,从而便于以后的数据挖掘。其优点是通过对数据仓库的不断更新,来不断地完善异常检测器和误用检测器,从而避免了重复检测同一类型的数据,大大减轻了入侵检测系统的负荷。
由于勘探与生产ERP涵盖总部、勘探与生产分公司和16家油气田企业,入侵检测系统的数据处理负担也在不断加大,包括各种网络流量,警报记录,日志记录等。而数据挖掘技术的最大特点就是处理海量数据,因此采用它可以很好解决入侵检测面临的高数据量的问题。从网络流量上可以过滤大部分正常数据,减轻攻击检测的负担;同时可以对大量告警记录进行整理,减轻管理员的负担。
三、结论
总之,应用数据挖掘技术改善了入侵检测系统的系统性能,改善了传统检测技术存在的缺点,使其成为一个集智能性、实时性于一体的智能化系统,具有很好的发展前景。
参考文献:
[1]高立丽,张娅,刘海梅. 网络入侵检测发展现状及应用研究[J]. 科技信息,2011,(1),92.
[2]谭建豪,章兢,黄耀,等. 数据挖掘技术[M]. 北京:中国水利水电出版社,2009.
[3]吕晓玲,谢邦昌. 数据挖掘方法与应用[M]. 北京:中国人民大学出版社,2009,1-2.
[4]薛惠锋. 智能数据挖掘技术[M]. 西安:西北工业大学出版社,2005,2.
[5]纪希禹. 数据挖掘技术应用实例[M]. 北京:机械工业出版社,2009,4.
[6]Song Jiali. Extracting Network Intrusion Detection Model Based on Classification Mining [J]. Network Security Technology & Application, 2006, (9), 21-23.