基于Spark的大规模网络流量分类方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:lost123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络流量分类是网络安全策略制定、网络管理、网络服务质量保障等领域的关键技术之一。随着智能手机和平板电脑的普及、新型网络应用的不断出现,网络流量呈指数增长,传统单机网络流量分类方法已经不能实时地识别出其中的应用类型。Spark具有运算速度快、计算能力强的特点,把它运用在大规模网络流量分类上,对于实现快速准确地网络流量分类具有现实意义。针对大规模网络流量分类所面临的问题,从提高网络流量分类的效率和准确率出发,论文的创新性有:  针对大规模网络流量分类面临的问题,给出了一种基于Spark的大规模网络流量分类模型。该模型利用Spark强大的并行计算能力,把复杂的计算任务分到多个计算节点并行执行,完成从流量采集到分类结果展现的完整过程。分析表明,该模型灵活性强、稳定性好,可以提高大规模网络流量分类的实时性,能够满足大规模网络流量分类的需求。  为解决在大规模网络流量上使用SVM(Support Vector Machine)算法时训练速度慢的问题,提出了一种基于并行DAGSVM(Directed Acyclic Graph Support Vector Machine)的网络流量分类方法。该方法利用有向无环图,将Spark中并行二分类SVM算法训练得到的子分类器组合得到并行多分类SVM分类器。通过对比实验发现,与单机SVM方法相比,该方法在确保较高分类精度的前提下,训练速度提高了100倍以上。  针对在大规模网络流量上使用基于Spark的并行DAGSVM网络流量分类方法时准确率较低的问题,提出了一种基于Spark的并行决策树网络流量分类方法。该方法在保持决策树算法优势的前提下,利用Spark中存在的并行决策树算法进行流量分类。与并行DAGSVM方法相比,其模型训练速度提升了三倍,分类精度达到了99%,适合于大规模网络流量分类。  为提高网络流量分类的精度,提出一种改进的多分类器选择性集成网络流量分类方法。该方法借助决策树算法在网络流量分类方面的优势,利用其训练基分类器,再使用改进的选择性集成策略从中筛选出准确率高、差异性大的基分类器进行集成,最后通过多数投票准则综合这些基分类器的识别结果来预测新样本。实验结果表明,该方法能够提高网络流量分类的准确率,同时提高了网络流量分类的效率。
其他文献
本学位论文主要研究车联网环境中的无线视频多跳传输系统的设计与实现,课题中综合应用了嵌入式Linux技术、无线通信技术、视频编解码技术和路由协议等完成视频信息的多跳传输
本论文研究课题来源于江苏省科技成果转化专项资金项目“卫星与无线通信融合应用系统研发及产业化(No.BA2010023)”,主要研究工作为卫星与无线融合系统中嵌入式接入设备的设计
汽车工业的不断发展,使得汽车成为人们生活的必不可少的一部分。由此催生出的车辆检测技术更是开始影响到人们生活的方方面面。车辆检测技术应用的范围包括了智能交通系统、智
在社会与经济快速发展的今天,人们对能源、电力的需求和观念也发生了变化。过往以使用化石燃料为主,推动社会发展的同时,带来了资源枯竭、环境污染等问题。各国的电力需求越来越
振荡器设计最为重要的性能指标要求是相位噪声,其对设备的性能参数有着极其重要的意义。为减小振荡器中相位噪声带来的影响,促使研究人员不断地去深入研究相位噪声产生的机理,并
SOA因其松耦合,跨平台性近来被广泛采用。传统的SOA一般是需求、构件两层架构,其中语义层默认为XML。本文在传统SOA架构基础上提出三层SOA架构,中间引入语义层,用本实验室提
认知无线电技术具有感知无线通信环境的能力,能够使用授权用户在时间、空间和频率上未使用的空闲无线资源,实现对异构网络环境下无线频谱资源的高效利用,从而缓解频谱资源紧
为应对日益紧缺的无线频谱资源,认知无线电诞生并发展迅速。认知引擎作为其关键技术之一,核心是利用人工智能算法完成认知学习推理与优化等功能,以到达自适应满足环境变化和用户
随着移动智能终端的迅速发展和普及,用户对移动多媒体业务的需求迅速增长。为满足众多移动用户对多媒体业务的需求,多媒体广播/多播业务(MBMS)最先由第三代合作伙伴计划组织(3G
随着社会的快速发展,人们对信息传输速率的要求不断提高,信号带宽越来越宽,信号处理框架所要求的采样速率和处理速度也越来越高,因而如何高效低耗地处理宽带信号成为亟待解决的问