论文部分内容阅读
随着互联网行业的迅速发展以及中国网络用户的不断增多,网络的安全问题逐渐得到人们的重视。网络已经渗透进人们的生活,各种网络安全事件关系到人们的个人信息以及财产安全。对于各种网络安全事件,如果能够及时发现,这样就可以采取有效的措施来降低损失甚至避免损失。另外现在网络流量数据量庞大,怎样有效的进行实时计算也是需要解决的问题。本文研究特征选取技术、网络数据流异常检测技术,并基于Storm分布式计算平台实现异常检测系统,最终能够及时发现网络中的异常。本文首先针对当前各种网络异常流量特征繁多复杂的情况,进行网络数据流的特征选取。针对FCBF(Fast Correlation-Based Filter)特征选取算法中只是单纯的减少特征与特征之间的冗余而没有考虑特征子集对类别的区分能力的问题进行了改进,在删除特征的时候增加特征子集的评价准则,从而使得特征子集更优。针对异常流量检测问题,本文采用基于信息熵计算的异常模型。针对数据草图Sketch数据结构在信息熵计算过程中查询性能较低且不能定位异常点的问题,对Sketch数据结构进行优化。针对基于信息熵的异常检测模型中的异常类型难以确定的问题,定义了特征向量然后采用欧式距离计算的方式来确定异常类型。最后,本文在上述介绍的两部分技术的基础上,在Storm分布式实时计算系统上面实现了网络数据流异常检测原型系统。通过原型系统的实际运行,验证了系统具有较高的处理性能,并且可以正确地检测异常数据流。