基于统计特征的互联网流量分类系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ctzlhst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据流分类是目前工业界和学术界研究热点。传统的基于端口、基于DPI的分类方法在P2P业务种类剧增以及抗加密性差问题上处于明显的劣势,导致分类准确率急剧下降。因而越来越多的科学家开始关注于基于统计特征的互联网流量分类系统,它仅依靠数据报文头部以及数据流外部可观察到的特征信息配合机器学习算法来对数据流进行分类,而不必对数据报文的内容进行分析。本论文中包含的工作如下:1)介绍并讨论了流量分类系统构建的理论基础,例如分类单位、分类评价指标、分类粒度、分类特征以及分类算法。2)将采集自公网的报文数据利用DPI进行分类标记并提取每个报文流中的{源端口、目的端口、传输层协议、前五个报文大小}这一特征来对数据报文进行学习建模,其间我们采用了C4.5决策树和SVM支持向量机的方法来构建分类模型并进行对比实验。尽管在识别精确度上C4.5(96.93%)要比SVM(98.20%)略低,但是C4.5的识别速率却要远胜于SVM(约20倍的差距)。3)针对特殊网络环境下(乱序、丢包以及数据流少于五个报文)C4.5的识别情况进行分析,发现在报文乱序的情况下C4.5的识别精度受到了较大的影响,因此我们创新地提出了采用词袋模型结合{源端口、目的端口、传输层协议、报文大小}这一新的特征集来对数据报文进行分类,从理论和实验两方面有效地提高了乱序情况下报文的识别精确度(约10%)。
其他文献
本文主要是针对分布式数据库系统中的数据一致性问题.所谓分布式数据库是指数据库中数据在物理上分布但是在逻辑上是一个整体的数据库系统,为了获得更高的可用性,可靠性和安
近年来,对主体的研究蓬勃兴起,面向主体的编程被誉为是继面向对象编程之后的“软件开发的又一重大突破”。随着对主体理论与技术的深入研究,多主体系统已成为当前的研究热点。在
本文首先综述了当前工作流模型及其验证方法,着重介绍了基于Petri网进行工作流建模和验证的优缺点,然后提出了一个基于双分支条件有向图(Double-Road Conditional Directed G
超分辨率图像重构技术的目的是从几幅包含有相同区域的图像序列中重新构建更高分辨率图像,采用这种重构算法不仅利用了图像内象素间的空间相关性,而且利用了图像间的时间相关
本文提出一种基于CORBA(Common Object Request Broker Agent)的分布式入侵防御系统(DIPS,Distributed Intrusion Protection System),较之传统的入侵监测系统,具有实时、易
随着网络和多媒体技术的发展,视频信息的检索成为非常重要的研究领域.该领域涉及诸多方面的技术,包括对关键帧的提取,视频在时间序列上的分割,视频片断的相似度度量以及高维
当前,数据挖掘是数据库研究、开发和应用最活跃的分支之一,引起了学术界和产业界的广泛关注.而其中关联规则挖掘在商业等领域的成功应用,使其成为数据挖掘中最成熟、最重要、
本文从分析火电厂燃料管理的整个过程入手,详细描述了燃料计划采购、燃料检斤、燃料化验、燃料掺烧及燃料结算的过程和内容,并阐述了燃煤掺配对保证机组稳定运行和经济运行的重要作用。论文着重论述了火电厂燃料配给模型的建立和改进过程,说明了燃料配给模型的适用条件,最后进行了燃料掺配的软件设计。针对某电厂200MW机组的实例,建立了掺配模型,并设计开发了燃煤掺配决策支持系统。该决策支持系统应用了软件总线技术建立
在Internet出现以前,数据库产业可以说是发展最快的信息产业,而Internet的发展又给数据库产业注入了新的活力,使传统的数据库产业向着Internet服务的方向发展。Oracle数据库系统
智能网过载控制技术是智能网实现过程中的关键技术,它对于确保智能网的稳定性,从而高效、优质地提供智能网业务起着重要的作用。SCP过载控制算法是智能网过载控制技术的核心。