论文部分内容阅读
网络流量分类是网络安全策略制定、网络管理、网络服务质量保障等领域的关键技术之一。随着智能手机和平板电脑的普及、新型网络应用的不断出现,网络流量呈指数增长,传统单机网络流量分类方法已经不能实时地识别出其中的应用类型。Spark具有运算速度快、计算能力强的特点,把它运用在大规模网络流量分类上,对于实现快速准确地网络流量分类具有现实意义。针对大规模网络流量分类所面临的问题,从提高网络流量分类的效率和准确率出发,论文的创新性有: 针对大规模网络流量分类面临的问题,给出了一种基于Spark的大规模网络流量分类模型。该模型利用Spark强大的并行计算能力,把复杂的计算任务分到多个计算节点并行执行,完成从流量采集到分类结果展现的完整过程。分析表明,该模型灵活性强、稳定性好,可以提高大规模网络流量分类的实时性,能够满足大规模网络流量分类的需求。 为解决在大规模网络流量上使用SVM(Support Vector Machine)算法时训练速度慢的问题,提出了一种基于并行DAGSVM(Directed Acyclic Graph Support Vector Machine)的网络流量分类方法。该方法利用有向无环图,将Spark中并行二分类SVM算法训练得到的子分类器组合得到并行多分类SVM分类器。通过对比实验发现,与单机SVM方法相比,该方法在确保较高分类精度的前提下,训练速度提高了100倍以上。 针对在大规模网络流量上使用基于Spark的并行DAGSVM网络流量分类方法时准确率较低的问题,提出了一种基于Spark的并行决策树网络流量分类方法。该方法在保持决策树算法优势的前提下,利用Spark中存在的并行决策树算法进行流量分类。与并行DAGSVM方法相比,其模型训练速度提升了三倍,分类精度达到了99%,适合于大规模网络流量分类。 为提高网络流量分类的精度,提出一种改进的多分类器选择性集成网络流量分类方法。该方法借助决策树算法在网络流量分类方面的优势,利用其训练基分类器,再使用改进的选择性集成策略从中筛选出准确率高、差异性大的基分类器进行集成,最后通过多数投票准则综合这些基分类器的识别结果来预测新样本。实验结果表明,该方法能够提高网络流量分类的准确率,同时提高了网络流量分类的效率。