论文部分内容阅读
随着网络技术的发展、应用程度的不断提高,重要信息系统的安全越来越受到严重威胁,各种网络安全事件越发不可避免,日益严重的网络安全危机甚至已经成为危及国家安全的关键因素。对入侵与攻击行为的检测与防范,保障计算机系统、网络系统和整个信息基础设施的安全已经成为一项刻不容缓的重要课题。虽然面向小规模网络的异常检测技术相对比较多,但随着网络带宽、网络规模的不断增长,复杂网络行为表现出了许多新的特性,深刻认识网络业务数据中潜在的规律和特殊性,是不断改进、提高异常检测方法性能的前提和基础,是进一步提高入侵检测系统的信任度、甚至实现大规模网络异常检测的关键所在。基于这样的认识,论文研究分析了网络连接数据和异常检测样本数据的特点,对数据集提出了一些新见解,认识到了网络数据中的一些新规律,以这些新发现和认识为出发点进行一系列有关异常检测算法的研究、探索,更加明确了本文的研究内容和意义。着重研究了以下三方面的问题,主要工作和创新成果一并概括如下:⑴深入地分析和研究了网络数据/异常检测样本集(KDD Cup 1999)中的新规律和新特点,如存在着大量的语义属性数据;样本记录是异构的;数据样本的分布不平衡;数据样本集由大量的同质异构样本组成;入侵数据相对于正常网络数据是离群数据等。通过对语义数据、异构数据相异性度量测度的研究,研究提出了新的度量方法;研究提出了数据集中聚类线索的挖掘方法,从样本组成和维组成两个角度挖掘样本的结构信息,分别提出了语义数据的量子聚类算法、离群聚类算法和结构熵聚类算法,并向异构数据集进行了扩展。进一步进行了基于相应聚类算法的异常检测研究,检测方法效果好。⑵量子力学是一门研究微观粒子在能量场中分布的科学,对波函数、量子势能、薛定锷方程以及能量场决定粒子分布的这一量子机制进行了分析研究,指出了这一机制与数据挖掘中的聚类机制的相似性,从而给出了量子聚类(Quantum Clustering,QC)算法的量子理论依据;通过用量子力学中的波函数推导FCM(Fuzzy c-Means)算法中的模糊相似系数,给出了一个FCM算法的量子理论解释;提出了量子聚类算法中调节参数的一种估算方法,大大地缩短了量子聚类算法的训练时间;针对网络数据中存在大量语义属性的特点,提出了一种语义属性数据的模糊量子聚类算法;并进一步研究提出了基于量子理论的异常检测方法。⑶语义属性数据的内积计算是一个公认的难点问题。通过对核方法和支撑向量机中核函数的分析,提出了一种语义属性数据内积计算的核方法,并扩展到异构数据的内积计算,有效的扩展了支撑向量机的应用范围,并实现了在异常检测领域中的应用,取得了良好的效果。