一种数据挖掘方法在入侵检测实践中的应用

来源 :数字化用户 | 被引量 : 0次 | 上传用户:hc_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】在深入分析现有入侵检测系统模型运行机制的基础上,针对已有检测机制存在的对于未知攻击行为无能为力、漏报率较高、检测效率低以及缺少规则库自动扩充机制等问题,结合数据挖掘技术的相关知识,对于提高入侵检测系统的准确性及完备性有很大的参考价值。
  【关键词】入侵检测 数据挖掘 数据价值
  一、数据入侵检测的分析方法及缺陷
  数据入侵检测作为继“数据加密”、“防火墙”等传统安全防护措施之后的新一代安全保障技术,已有效地补充和完善了其他安全技术和手段的不足。然而,随着网络带宽的不断增加以及网络处理速度的不断加快,现有入侵检测系统会出现检测率低和漏报率高的问题。因此,研究现有入侵检测模型,改善现有入侵检测系统存在的问题,对于增强现代网络的网络安全具有重要的理论和现实意义。
  入侵检测归根结底处理的是数据,因此,实际上入侵检测的过程完全可以看作是一个数据处理的过程[1]。入侵检测的分析方法主要有以下三种类型:
  (一)基于主机的数据入侵检测分析方法
  数据源一般都是使用操作系统的审计以及跟踪日志。基于主机的检查分析方法会主动与主机系统进行交互,从而获得不存在于系统日志中的信息来检测入侵。这种类型的数据检测系统对网络流量不敏感,不需要额外的硬件.效率高,并且能准确定位入侵,及时进行反应,但是其弊端是占用主机资源,依赖于主机的可靠性,所能检测的攻击类型有限,并不能检测网络攻击。
  (二)基于网络的数据入侵检测分析方法
  基于网络的数据入侵检测分析方法一般都是通过监听网络上传输的数据流,处理获取的网络数据,从中提取有用的信息。然后通过匹配已知的攻击特征,或者与正常网络行为原型来相比较,从而识别攻击事件。这种检测系统可应用于不同的操作系统平台,不依赖于某一操作系统;其配置简单,并不需要任何特殊登录机制及审计;其可检测协议攻击、及特定环境的攻击等多种攻击。它的弊端是只能监视本网段的活动,不能监控主机系统的实时状态,精确度不够准确。
  (三)分布式的数据入侵检测分析方法。
  分布式入侵检测系统一般都是由多个部件组成的分布式结构。关键主机上利用的是主机入侵检测,网络关键节点上利用的是网络入侵检测。这种入侵检测分析方法是一并分析主机系统的审计日志和网络的数据流,从而判断被保护系统是否受到攻击[2]。
  二、利用数据挖掘技术方法分析入侵检测结果
  (一)数据挖掘技术方法
  数据挖掘技术是数据库研究领域一个很有应用价值的新领域,它融合了人工智能、机器学习、统计学、以及可视化和信息科学等多个领域的理论和技术。数据挖掘的最终目的是在大量难以处理的数据中发现隐含的、或未知的、或非平凡的及有潜在应用价值的信息或模式,并将其以可理解的方式表达出来,从而为用户的决策提供支持。目前,数据挖掘技术的发展已经成为一个热门的研究领域,具有紧迫的现实需求。
  目前数据挖掘方法主要有以下四类,分为分类挖掘、聚类挖掘、关联挖掘和序列挖掘。利用这四类方法来进行入侵检测的方式分别为:
  第一,将分类挖掘的方法应用于入侵检测,可以先使用带有正常数据和异常数据分类标记的训练数据集,再选取某种方法来构造出适用于入侵检测的分类器。最后再采用此分类器对捕获的网络数据进行归类,将数据归类为正常和异常两种,这样就可以判断是否有入侵发生了。
  需要注意的是,分类器对于最终判断入侵发挥着重要作用,因此分类器分类性能的好坏,直接关系到入侵检测的准确率,因此,在使用分类器检测入侵之前,要反复对分类器准确率进行评估,以期望得到最佳效果的分类器[8]。
  第二,要将聚类挖掘应用到入侵检测当中,那么检测数据中正常数据与异常数据要满足两个条件:一是在数量上正常数据要远远大于异常数据,二是正常数据与异常数据存在很大差异。而现实中的网络数据基本上都能满足这两个条件。因此,聚类挖掘也是可以应用到入侵检测当中的。可以利用不加类标识的数据进行训练,根据数据的特点对其进行分类。然后得出正常类数据存在的特点,以此判断某一行为是否是入侵。
  第三,关联挖掘是最早被应用到入侵检测中的数据挖掘方法。关联规则最大的优势是发现数据库中记录不同特征属性之间的联系。因此最直接的可以用关联规则来建立基于特征匹配的入侵检测系统规则库的建立。此外,还可以将关联挖掘与其它挖掘方法结合起来。例如与分类挖掘相结合,由于分类挖掘通常是基于数据对象的属性来分类的,因此分类属性的选择对建立的分类器性能的好坏有着很大的影响。如果事先用关联挖掘的方法发掘出属性之间的关联关系,用它来指导对属性的选择,会在很大程度上提高分类器的准确性。
  第四,序列挖掘关注的是事件出现的先后次序,主要解决类似“在某段事件内,首先具有特征属性M的事件发生了,接着具有特征属性N的事件发生,最后具有特征属性P的事件也发生了,即出现了特征属性出现序列M→N→P,且频度较高”这类含有高频度序列的问题。而入侵检测中也存在这样的攻击,如某些攻击行为的发生往往蕴含着一定的规律,某些黑客在对系统发起攻击之前多是要先扫描端口,接着试验密码,这样就可以据此判断可能有攻击发生。而且,序列挖掘也可与其它挖掘方法结合,可以是检测更加准确。
  (二)利用数据挖掘技术来优化ERP系统中入侵检测
  ERP系统是中石油集团公司“十一五”信息技术总体规划的核心,涉及面广、跨专业、跨部门、跨系统,与油田勘探、开发、生产经营管理等各业务领域紧密联系,通过规范计划、物资、设备、财务以及油气销售的业务流程,搭建财务与业务集成的经营管理平台,来实现项目的独立核算及考核,从而实现人、财、物等资源的有效调配,为勘探与生产主体经营管理需求来提供有力的技术支撑。正因为其的牵涉面甚广,其对信息的安全性要求特别得高。   但是,也因为其涉及的部门、专业、系统多,ERP系统出现的入侵也是非常复杂的,想要通过传统的基于误用检测方法的模式匹配方式来及时检测攻击入侵的发展是很难实现的。
  然而ERP系统可以使用基于异常检测的方法检测来入侵。因为它不是进行模式匹配,而是建立了系统正常工作时的模式,而不就每一个信号进行检测,所以不存在由于无该攻击规则而无法检测的问题,能够表现出较好的自适应性。比如,有一个来自某地址的远程呼叫程序,采用信号匹配的话,可能很容易迷惑检测系统,但如果采用异常检测的话,因为系统会发现以前从未有来自这个地址的RPC连接,所以它就很容易地被检测出来。
  另外,在ERP系统应用的过程当中,将数据挖掘应用于入侵检测,可以采用序列挖掘的方法,提取出从正常行为是发生时的某种序列规律,从而排除那些因正常的行为而产生的信号,因而具有较低的误警率。与此同时还采用异常检测方法,能够发现新的攻击,从而减少的漏报的产生。
  数据挖掘技术在ERP系统的入侵检测的应用,主要通过分析有用的历史数据、提取用户的行为特征、归纳入侵行为的规律,进而为入侵检测建立比较完备的规则库。此过程主要分为以下几步:1.数据的收集,ERP入侵检测系统的数据主要来源于网络。2.数据的预处理,是指在主要的处理前对数据进行的一些处理。例如将不规则分布的测网经过插值转换为规则网的处理,从而便于计算机的下一步运算。这一过程的好坏直接影响规则的准确性以及用户行为特征的定性。3.数据的挖掘,是在通过分析预处理过数据,来提取用户的行为特征,归纳并更新入侵行为规则,最终建立起规则库。
  下面是基于数据挖掘的ERP网络入侵检测系统的模型结构
  (如下图所示)
  此过程是将ERP系统从网络中所获取的网络数据包全部发送到数据预处理器,通过数据预处理器对网络数据包进行再加工,利用关联规则确定具有代表性的规则后放人关联规则集,并利用聚类规则进行聚类优化。可通过规定的闭值,从而剔除正常的数据,再通过误用检测器进行数据检测。若误用检测器没有检测到攻击,再将数据发送到异常检测器来检测。通过这一步操作将过滤掉大量正常数据,从而便于以后的数据挖掘。其优点是通过对数据仓库的不断更新,来不断地完善异常检测器和误用检测器,从而避免了重复检测同一类型的数据,大大减轻了入侵检测系统的负荷。
  由于勘探与生产ERP涵盖总部、勘探与生产分公司和16家油气田企业,入侵检测系统的数据处理负担也在不断加大,包括各种网络流量,警报记录,日志记录等。而数据挖掘技术的最大特点就是处理海量数据,因此采用它可以很好解决入侵检测面临的高数据量的问题。从网络流量上可以过滤大部分正常数据,减轻攻击检测的负担;同时可以对大量告警记录进行整理,减轻管理员的负担。
  三、结论
  总之,应用数据挖掘技术改善了入侵检测系统的系统性能,改善了传统检测技术存在的缺点,使其成为一个集智能性、实时性于一体的智能化系统,具有很好的发展前景。
  参考文献:
  [1]高立丽,张娅,刘海梅. 网络入侵检测发展现状及应用研究[J]. 科技信息,2011,(1),92.
  [2]谭建豪,章兢,黄耀,等. 数据挖掘技术[M]. 北京:中国水利水电出版社,2009.
  [3]吕晓玲,谢邦昌. 数据挖掘方法与应用[M]. 北京:中国人民大学出版社,2009,1-2.
  [4]薛惠锋. 智能数据挖掘技术[M]. 西安:西北工业大学出版社,2005,2.
  [5]纪希禹. 数据挖掘技术应用实例[M]. 北京:机械工业出版社,2009,4.
  [6]Song Jiali. Extracting Network Intrusion Detection Model Based on Classification Mining [J]. Network Security Technology & Application, 2006, (9), 21-23.
其他文献
目的 研究熊去氧胆酸(优思弗,UDCA)在预防胆管结石内镜逆行胰胆管造影(ERCP)术后复发中的作用.方法 选择2005年3月至2006年9月间在我院消化科行ERCP术的胆管结石患者275例,随机分为实验组和对照组,实验组133例,术后服用熊去氧胆酸,对照组142例,术后未服用熊去氧胆酸,随访1年,观察有无结石复发,同时检测其血脂水平.结果 实验组结石复发8例(8/133),复发率为6.01%,对
目的:探讨左炔诺孕酮缓释系统(LNG-IUS)治疗月经过多的临床价值。方法:观察放置LNG-IUS患者月经状态、子宫内膜厚度、血红蛋白和生殖激素变化。结果:放置LNG-IUS后,患者的月
目的:探讨子宫动脉栓塞手术治疗产后大出血的疗效。方法:对产后大出血患者行子宫动脉栓塞手术。结果:23例患者共栓塞子宫动脉48支,侧支供血血管3支,全部栓塞成功,19例患者术
目的:观察电针天柱穴对大鼠颈椎间盘退变组织bcl-2、bcl-XL表达的影响.方法:将40只SD雄性大鼠,随机分为4组,即假手术组、电针组、西药组和模型组,每组10只.除假手术组外,其余
目的 分析我院10年间剖宫产率及剖宫产指征的变化、围生儿死亡率,指导临床合理掌握剖宫产.方法 对1998年至2007年6024例剖宫产病例进行统计,分析剖宫产率、剖宫产指征.结果 剖宫产率明显升高,后5年显著高于前5年,差异有统计学意义(P<0.05);剖宫产指征顺住发生了明显变化,"社会因素"由前5年的第四位上升至后5年第二位;剖宫产产后大出血行子宫切除机率明显高于阴道分娩者;围生儿死亡率呈明显
目的 探讨非酒精性脂肪肝(NAFLD)与胰岛素抵抗(IR)及血脂异常的关系.方法 随机选取我院健康查体中心2006年6月至12月查体者中NAFLD患者100例,排除饮酒、病毒性肝炎、自身免疫性肝炎、药物性肝病及糖尿病患者.同时随机选择100例年龄、性别相匹配的正常对照者,进行血压、肝功能、肾功能、血脂、空腹血糖(FPG)及餐后2 h血糖(2hPG)、血浆胰岛素(FINS)及餐后2 h血浆胰岛素(2
目的探讨急诊科常见护理纠纷的防范。方法针对急诊科患者发病急,变化快,病情复杂,未知因素多,容易发生护理纠纷,笔者进行分析,总结了原因和防范措施。结果全科护理人员加强法
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
【摘 要】广播电视在近些年来发展迅猛,是现代化传播的重要工具它对于人们的生产和生活方式都产生了重大的影响。广播电视技术系统是一个复杂的系统工程,为使这个复杂的技术系统正常运转,确保广播电视节目传播的质量,需要树立先进的管理理念,全面做好技术维护工作。本文就谈谈广播电视工作中的技术维护的特点与策略。  【关键词】广播电视 技术维护 特点与策略 未来发展  广播电视技术管理与维护是广播电视事业的重要组
【摘 要】本文探讨了数据挖掘技术在证券公司经纪业务营销活动中的应用,详细分析了经纪业务营销模式的建设要点。通过建立数据仓库,实现了证券公司关于营销主题的事实表和维度表单设计,为数据挖掘应用提供了可能。最后,选择k-means聚类方法,实现了平安证券公司营业部的聚类,并给出了相应的营销方法。  【关键词】数据挖掘 数据仓库 经纪业务 营销  一、概述  自八十年代投资人工智能(AI)研究项目失败后,