论文部分内容阅读
随着计算机、通信和网络技术的高速发展,全球信息化的步伐越来越快,网络信息系统已经成为一个国家、一个行业、一个集团持续发展的基础设施。人类在感受到了网络信息系统对社会发展做出巨大贡献的同时,也认识到了网络信息安全问题已经成为影响国家长远利益和持续发展急待解决的重大关键问题。为了保护网络信息系统的安全,人们研究和探索了多种安全防护技术,从一开始的静态安全防护逐渐过渡到了动态安全防护。入侵检测技术是一种重要的动态安全防护技术,已经成为计算机科学与技术的一个重要研究领域。由于数据挖掘能够从海量数据集中挖掘出人们感兴趣的特定模式,因此,有大量的研究计划将数据挖掘技术运用到入侵检测中,这些研究大大推动了入侵检测研究领域的快速发展。但是,基于数据挖掘的入侵检测领域依然存在着许多急待解决的问题,比如:数据挖掘是通向知识发现整体目标中的重要一步,然而,入侵检测中的数据挖掘对新知识的发现还没有引起足够的重视,在入侵检测中,数据挖掘主要被用于构造检测入侵的“黑匣子”,而不是去发现攻击和虚假报警的本质。在基于数据挖掘的入侵检测研究中往往紧密地依赖于高标准的训练数据集,这严重制约了这一领域研究成果的有效性和通用性。为了推动数据挖掘技术和入侵检测技术的发展,针对现有基于数据挖掘的入侵检测研究中存在的问题,从理论和应用两个层面进行了研究,以期解决模式匹配效率、入侵检测聚类、警报根源的识别和消除等关键问题,为入侵检测提供新的方法和有效途径。针对入侵检测模式传统匹配算法的低效性,研究了关联规则和频繁情节规则的编码方法,据此设计了编码算法。运用这种编码算法对数据挖掘的模式进行量化处理,建立了模式编码与模式相似性之间的对应关系,并且提出了一种入侵检测的在线检测算法和一种离线检测算法。将数据挖掘中的入侵检测模式进行量化处理的方法,为入侵检测系统高效地检测大流量网络的入侵提供了一条简单可行的途径。相似性的度量是解决聚类问题的关键,根据传统方法的不足,引入信息熵理论来解决含有分类属性的入侵检测聚类问题。在对信息熵理论和集合理论的相似性度量方法进行深入研究的基础上,证明了这两种相似性度量方法在解决入侵检测聚类问题时的等效性,于是,基于集合理论的相似性度量的所有方法都有可能直接应用于解决入侵检测聚类问题。并且提出了一种基于信息熵的启发式入侵检测聚类算法,算法可以对数据集合进行聚类,并使得聚类的期望信息熵最小。理论分析和实验表明,算法是<WP=5>有效的,而且对大型数据集合具有良好的增量挖掘能力。入侵检测系统触发的大量警报致使系统安全分析人员的工作量极大,经分析与研究,有一些相对较少但却是很主要的根源,正是因为这些根源触发的大量警报分散了入侵检测分析人员的注意力。据此,将警报根源的识别和消除作为一种提高入侵检测功能的有效方法而引入到入侵检测警报的高效管理中。为了在大量警报中分析和识别根源,提出了使用基于面向属性归纳的概念聚类方法来处理警报,并针对传统算法存在的问题提出了一种启发式的改进算法。这种算法能将相似的警报聚类为一个广义警报,大大简化了对根源识别的知识背景的要求。理论分析和实验表明,通过识别和消除警报根源处理后,可以显著地减少未来警报系统的负载。