论文部分内容阅读
入侵检测技术是一种主动的信息安全保障措施,已成为现代计算机系统安全技术中的研究热点。它的主要任务是按照一定的策略,对网络的运行状况进行监视,尽可能发现各种攻击行为,以保证网络系统资源的机密性、完整性和可用性。基于主机系统调用的入侵检测技术是针对主机系统调用数据进行检测的一种安全技术。主机系统调用序列反映了系统内核的行为特征,具有很强的规律性。目前,绝大多数入侵行为都通过攻击特权进程来破坏计算机系统的安全性。本课题通过观察进程的运行,提取系统自身特征,建立进程模型来描述系统调用序列的整体行为。首先,本文介绍了系统调用的相关理论以及获取系统调用的方法,深入分析了入侵检测模型的构架。在此基础上介绍了两种分类算法:C4.5和RIPPER算法,以及这两者分类算法在入侵检测领域中的应用。其次,本文采用新墨西哥大学提供的实验数据,使用不同窗口长度扫描该实验数据的正常行为库和入侵行为库,生成正常短序列和异常短序列,由这些短序列构成了正常模式库和异常模式库,并对不同窗口长度模型的检测性能进行了分析和比较。由于这两个模式库中都有重复出现的短序列,所以要对数据进行清洗,使得每个短序列在每个模式库中具有唯一性。另外,由于许多短序列既在正常模式库中出现,又在异常模式库中出现,无法对其进行有效的分类,而主机系统调用入侵检测的核心问题是分类问题。所以本文把所有正常模式库中出现的短序列标注为正常,把仅在异常模式库中出现的短序列标注为异常。接下来,本文根据C4.5算法和RIPPER算法要求的数据格式,对输入数据集进行规范,并对这两种算法产生分类器的检测性能进行了分析研究。最后,在模型设计的基础上,本文通过对训练数据集进行分类挖掘建立起不同特征模式库模型,并对该模型进行了验证。由于训练数据集的质量直接影响模式库的质量,进而影响系统模型的检测效果,并且异常事件具有突发性,数量较少,正常数据与异常数据比例悬殊,不利于生成有效的规则库,于是,我们进行了第二轮实验。在实验中,我们对异常数据进行大量的复制,使得正常数据与异常数据的数目达到均衡,并根据训练数据的均衡度来分析和总结了训练数据对分类器检测性能的影响,取得了一些初步的研究成果,具有一定的参考价值。