论文部分内容阅读
随着互联网快速发展,网络应用类型不断丰富,网络流量呈现爆发式增长。大量P2P业务产生的流量占据网络带宽,造成网络拥堵,使得网络服务质量不断下降。为了有效监管网络,需要对网络流量进行实时识别,根据不同的应用类型提供差异化服务,保证网络安全,优化网络资源。然而,面对海量、不断到来的网络流量,传统的机器学习方法和集中式处理平台已经无法满足要求。结合数据流挖掘的网络流量识别方法与大数据流式处理平台Spark Streaming,提出了在线网络流量识别方案。在线网络流量识别的关键在网络流特征的选择和数据流挖掘方法两个方面,本文结合网络流量的特点提出了一种有效的网络流特征选择方法;分别研究数据流分类和聚类算法以进行网络流量的识别,对比分析了各自的特点和主要应用场景。本文主要工作包括以下几个方面:(1)对网络流特征进行特征选择由于网络流特征复杂,属性维度高,无法直接用于在线网络流量识别。提出一种结合ReliefF和CFS方法的基于投票策略的组合特征选择方法,该方法能够快速高效去除无关、冗余特征,最终选择出一组适合在线识别的网络流特征。(2)改进数据流分类算法,并将其应用于网络流量识别分类算法具有较高的分类准确率和速度。分析数据流分类算法进行网络流量识别存在的问题。在CVFDT的基础上进行改进,改进后的算法AG_CVFDT有效解决了网络流量概念漂移和偏态分布问题,同时将算法在Spark Streaming上并行化实现,提高了网络流量识别效率。(3)研究有效的数据流聚类算法及相应的网络流量识别方案聚类算法能发现网络中新出现的应用类型。分析数据流聚类算法CluStream和D-Stream进行网络流量识别的优缺点,结合两者的优点设计具有双层结构的数据流聚类算法GDDSC,并给出了相应的网络流量识别方案。该方法支持演化分析,能得到任意形状聚类簇,同时引入趋度判断,提高了识别准确性。