用于入侵检测的若干数据挖掘方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:andysonz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘在人工智能的研究中具有重要地位。传统的数据挖掘研究一般基于理想环境进行,即数据是完整的,类别是均衡的。但在现实世界中环境是非确定性的,即数据中普遍含有噪声,且类别具有不均衡性。因此,如何让系统更好地在复杂的非确定性现实环境下进行学习,已成为机器学习领域里的一个重要课题。与此同时,网络入侵检测也逐渐成为计算机界研究的热点问题之一,采用数据挖掘的方法进行入侵检测有着检测速度快,规则更新快,方法灵活等优点。但是网络数据具有很强的类别不均衡性,正常数据将远大于入侵数据,特别是异常但又不是非法的操作会严重影响分类的准确性。因此,设计一种能够应用在入侵检测数据集上的数据挖掘方法显得十分重要。   本文主要的研究工作及成果体现在如下几点:   1)综述了若干用于入侵检测的人工智能方法以及若干基于人工智能方法的网络入侵检测系统,重点分析了常用的数据挖掘方法在入侵检测方面的优缺点。   2)针对MIT入侵检测数据集,仔细分析了该数据集中存在的数据不均衡现象,并指出这一现象产生的原因及目前研究水平。   3)针对数据类别不均衡性尤其是入侵数据集中的类别不均衡性问题,提出一种改进的决策树算法PC4.5算法,该算法能有效处理不均衡数据集的样本。   4)在研究了以往对于不均衡数据集单一问题的解决办法的同时,提出了一种针对入侵数据集的解决方法,该方法结合了取样策略、算法选取、聚类、Co-Training等方法,在实际应用中提高了分类的精度;并采用合理的评价标准避免了识别率低准确率高的问题。   5)基于上述研究成果,设计并实现了一个基于数据挖掘方法的入侵检测系统。该系统具有自学习性,同时也不需要很强的入侵检测专业知识。
其他文献
领域构件的接口名称不仅仅只是一个使其唯一的标识符,其中往往蕴含了相关领域中的语义信息。本文假设构件的设计者在对构件接口进行命名时,会尽量包含接口在领域中的语义信息,这
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。 并行聚类算法将并行计算方法与
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web。Deep Web主要有Web中可在
轮廓查询技术是空间查询及优化领域的研究热点, k-支配轮廓技术是近年来轮廓查询技术领域的新的研究方向。k-支配轮廓查询及其动态处理被广泛使用在多种空间数据库中,在数据
基于TCP/IP的Internet迅猛发展,已经成为全球覆盖范围最广,承载业务最多的综合性网络。通过IP网络承载传真业务,由于其低廉的费用和高效的带宽利用率,正在成为一种新的具有相
随着信息技术的迅猛发展,各种信息的获取、保存与使用方式给人们带来了极大的方便,但未经版权所有人许可,对数字作品的任意复制、修改等盗版行为也日趋严重。在此背景下,数字
动词子语类框架(subcategorization frame,以下简称SCF)信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以
新型网络结构、业务模式以及网络安全等研究由于缺乏大规模测试环境的支持很难展开深入的研究与验证,导致研究成果缺乏说服力。面向上述研究的大规模网络模拟技术对计算机网络
数控系统作为衡量一个国家制造业水平的重要标志越来越受到人们的重视。目前,大多数数控系统已经具备了速度快、精度高和智能化的特点,但传统的数控系统,只能同时完成一个工
分辨率的提高与压缩技术的进步,使得数字视频和图像处理应用对高性能的需求也与日俱增。同时还需要保持架构的灵活性,以获得快速升级的能力。此外,技术的成熟以及需求的增加要求