论文部分内容阅读
网络的发达使得大数据成为了炙手可热的时代产物。云时代的来临,大量的非结构化和半结构化的数据需要一个像MapReduce的框架为成百上千台计算机分配工作。网络应用呈多元化发展,网络流量激增和网络系统复杂性给网络管理带来了严峻挑战。网络流量分类是一种从数据中识别流量特征并分析其协议和应用程序的技术。这种技术对于维护网络安全,保障网络运营和提高网络服务质量等方面具有重要意义。网络流量分类一般有三个步骤:收集流量数据,提取流量特征,并匹配分类流量。由于网络流量数据在不可控的条件下会有数据量大、属性杂乱以及属性之间线性相关等特点,因此,本文有两个重点研究内容,分别侧重于:数据降维处理和利用算法分类网络流量。整理所得关于网络流量分类的资料文献,获得流量分类的背景和掌握流量分类的发展进程,研究约简处理数据的方法包括以特征提取为原则的主成分分析(Principal Component Analysis,PCA)、以特征选择为原则的粗糙集算法(Rough Set,RS)与极限学习机相结合对网络流量分类的效果。论文主要工作包括:1.研究了数据预处理方法以及数据降维算法,数据预处理利用了科学工具整合了数据集,为构建网络流量分类器做好前提工作;通过PCA和RS这两种降维算法解决了数据冗余属性等问题。2.研究了前馈神经网络算法(back propagation,BP神经网络),设计了一个BP网络流量分类器。利用BP神经网络具有逼近任意函数的能力对网络流量数据进行分类,但是BP流量分类器在实验中表现出参数设置复杂、训练时间成本高的结果。3.研究了极限学习机(Extreme Learning Machine,ELM)与数据约简相结合在网络流量分类中的应用。设计的ELM流量分类器无需设置学习率,结合了数据降维的ELM流量分类器提高了网络流量分类的学习速度和分类准确率。4.研究了分层极限学习机(Hierarchical Extreme Learning Machine,H-ELM)应用于网络流量分类。H-ELM流量分类器本身具有特征提取阶段,实验结果显示,设计的H-ELM网络流量分类器很大程度上改善了网络流量的分类精度。5.将在线顺序极限学习机(Online Sequential Extreme Learning Machine,OS-ELM)作为流量分类器进行研究,对时刻更新的动态网络流量进行分类。设计了一个结合数据降维的OS-ELM的网络流量分类器具有批处理的能力,可以对数据分批处理,及时地对当前数据块训练,随后释放当前空间,满足在线学习的需求,缩短了分类训练时间,提高了网络流量分类的效率。