论文部分内容阅读
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网科技的不断创新与升级。网络设施和资源对于国家、企业和个人的重要性日益增强,在不断改变人们传统的生活、工作与学习方式的同时也带来了新的问题和挑战。人类社会信息化程度日益增加,对网络依赖性日益增强,如何能够保证信息化社会的正常、安全、平稳地运转,其中计算机网络的安全性是最重要的环节之一,必须不断地得以充实、强化和提高。目前,网络互联领域的广度和深度不断扩展,开放特性不断深化,造成越来越多的网络系统面临攻击和入侵的威胁。本论文基于上述研究背景,开展了基于数据挖掘的网络入侵检测研究,以提高检测算法对未知入侵的检测有效性为目标,从检测率和误报率两个重要指标出发,提出以聚类分析为主线的相关检测算法,并进行了计算机仿真实验;与此同时,针对数据挖掘中的数据预处理存在的问题提出了相应算法的改进。本论文主要研究工作如下:1. 从入侵检测研究背景和发展历程出发,介绍了入侵、入侵检测和入侵检测系统的基本概念和原理,阐述了将数据挖掘引入入侵检测领域的背景,分析其出发点、可行性以及此领域的研究进展和存在的相关问题。2. 对数据挖掘中的特征子集选择问题进行分析,提出了基于改进遗传算法的特征子集选择算法。此部分讨论了研究特征子集选择的必要性,介绍了特征子集选择的主要方法,并针对LVF算法存在的问题,提出改进算法以优化算法结果,通过计算机仿真实验,获得较LVF算法更优良、稳定的特征子集集合。3. 针对网络入侵检测中存在的检测有效性和效率问题,对Portnoy等人提出的检测算法经过认真分析,提出基于遗传聚类的网络入侵检测算法—NIDBGC算法。NIDBGC算法由Leader聚类阶段和遗传优化阶段两部分组成,能自动实现初始聚类簇集合建立、组合优化和入侵行为标识的整个检测过程。计算机仿真实验结果表明,NIDBGC算法在保持较大入侵行为比例的情况下,平均检测率和平均误检率仍保持了一定水平,这表明该算法的思想和方法对于未知入侵检测是可行的,能够取得一定效果。针对以聚类簇中心矢量代表聚类簇进行聚类分析的过程进行了讨论,并举例分析;针对网络入侵检测研究,考虑到由于网络行为分布未知,特别对<WP=5>4. 于未知入侵攻击行为,其分布方式不一定按超球面形式分布,因此提出非球型网络入侵检测算法—NIDBNNGC算法,算法由最邻近聚类阶段和遗传优化阶段两部分组成,能自动实现初始聚类簇集合建立、组合优化和入侵行为标识的整个检测过程。计算机仿真实验结果表明,它的平均检测率和平均误检率水平较NIDBGC算法有一定提高。同时,考虑到NIDBNNGC算法中遗传算法的变异算子作为局部搜索算子采用随机变异方式的情况,未能有效解决遗传算法自身局部性能方面的问题。提出采用Tabu搜索算法作为遗传算法的变异算法以改进随机变异的不足,并将此思想运用到入侵检测研究,从而提出了新的检测算法—Tabu-NIDNNGC算法,算法在降低了遗传算法中种群和迭代规模的情况下,其检测结果较NIDBNNGC算法有了进一步改进,并减小了加权因子较小时误检率波动的区域,提高了检测精度。5. 以Tabu搜索算法为核心,提出了新的检测算法—基于Tabu搜索的网络入侵检测算法(NIDBTS),算法以提高检测率,降低误检率为目的,建立了利用Tabu搜索算法进行入侵检测研究的算法模型。NIDBTS算法由最邻近聚类阶段和Tabu搜索优化阶段两部分组成。本论文提出邻域球和概率门限相结合以提高Tabu算法全局和局部搜索能力,在算法迭代的前期利用邻域球提高相邻解的多样性,而后期利用概率门限提高对当前解邻近区域的搜索能力以保持算法较高的强化能力。实验结果显示算法对未知入侵攻击平均检测率和平均误检率保持了较高水平,表明NIDBTS算法对于未知攻击检测是可行的和有效的。