论文部分内容阅读
随着多种异构网络的融合以及网络技术的持续进步,网络安全问题逐渐受到人们的重视,网络数据流的异常事件检测技术也得到了信息科学研究领域的广泛关注。在传统异常检测方法中,研究者们将信息论、数据挖掘、统计学等思想融入其中,并取得了一定成果。由于网络数据流的数据特征繁多,且其中的大部分特征是与类别无关的,因此在异常检测之前对特征进行挑选,再利用选择出的有效特征对数据进行建模能大大提高检测效率及准确度。综上所述,本文研究的重点是使用一种有效的特征选择算法对网络数据流的特征进行挑选,并提出一种有效的检测技术对网络数据流进行异常检测。 针对网络数据流的特征选择问题,鉴于 ReliefF特征选择算法速度快、能处理多分类问题、可处理多种数据类型等特点,本文主要对ReliefF特征选择算法进行了研究。首先,该算法计算特征权重公式主要基于距离公式,大量复杂计算必然对效率产生影响。其次是该算法通过计算同类之间距离和异类之间距离来估计同类数据与异类数据之间相似度,而在实际计算过程中,不同情况下计算权重过程也应有所变化,才能更准确的选择特征。针对以上问题,本文通过在不同情况调整特征权重的方式对算法进行了改进,保证了在特征选择结束后,所选特征子集中的特征与类别具有较强的相关性。实验证明改进后的算法选出的特征子集具有更好的分类效果且提高了算法运行效率。 针对网络数据流异常检测问题,本文采用基于隔离森林的异常检测算法。该算法对数据维数及数据量无限制,同时充分利用了异常数据流“少且不同”的特点。但由于隔离森林算法特征及特征值的选取是完全随机的,这会造成算法极大的不稳定性,且该算法对检测到的异常不能确定攻击类型。针对以上问题,本文首先将特征选择算法与隔离森林算法相结合,对选取的特征及特征值进行了优化,该过程在提高算法的稳定性的同时确定了异常数据的攻击类型。其次,本文结合异常网络数据流的特点对算法效率进行了优化。实验证明本文提出的异常检测方法能够快速准确的检测出网络数据流中的异常事件。