对几种网络流量分类方法的分析与改进

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cntele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络流量分类技术是互联网运营商对网络状况进行监督,进而对网络进行管理的重要手段。随着互联网技术的快速发展,在不增加网络带宽的情况下提升网络的性能成了亟待解决的问题。这就需要对网络流量进行分类。   在本论文中,我们主要对三种网络流量分类方法进行了分析和改进,对改进前后的分类方法分别进行了比较,并且对比了这几种改进之后的分类方法。   基于内容的分类方法以数据包作为操作对象,分类效率比较低,而且它的特征字符串集合也比较陈旧,无法进行准确分类。我们通过论证,可以让这种方法以数据流为操作对象。同时,我们经过测试,对特征字符串集合进行了仔细整理,添加了一些新的特征字符串。改进之后的方法在很大程度上提高了分类的完整性,同时降低了分类的漏报率。   基于通信特征的BLINC分类方法[10]只能对大规模的数据集进行分类,并且分类的结果无法精确到具体协议。对此,我们首先通过测试对基于端口的方法进行约束,使之只能对某些特殊的应用层协议进行分类。然后利用这种结合端口号约束的BLINC方法进行流量分类。改进之后的方法明显提高了分类的准确率和完整性,降低了分类的漏报率。同时,改进之后的方法可以对小规模的数据集进行分类,分类的类别也更加细致。   基于统计模型的分类方法[5]应用统计模型对属于同一种应用层协议的数据包进行自动分类。这种方法使用对称相对熵来计算两个语法之间的统计分布距离,但是当统计分布中某些符号出现的几率为零时,这种计算方法无法对其进行计算,需要根据训练集的测试结果人为设定一个特殊值来代表这些符号上的相对熵值,而在训练集更换后这种方法有可能无法达到比较好的学习效果,所以需要对这个特殊值进行重新测试。在本文中,我们使用卡方距离来代替对称相对熵计算语法之间的统计分布距离,不再需要设定特殊值。同时,我们综合使用受到约束的基于端口的方法和改进后的基于内容的方法对语法进行判定,提高了这种方法的适用性。
其他文献
大型本体高效检索与使用是一个非常有意义且有待解决的问题。语义网发展到今天,本体数据集的规模都已经非常庞大,其中不可避免的存在不同程度的数据不一致。然而,对于本体的使用
随着无线通信、现代定位技术和移动计算等技术的飞速发展,以及众多具有跟踪定位功能的便携设备和机载设备的普及,人们收集、分析和利用移动对象位置信息的深度和广度得到了前所
Web离线应用由于其在网络断开的情况下仍能为用户提供良好的服务而成为当今的一个热点研究问题。许多著名公司和机构相继在自己的产品上发布了离线应用版本,如谷歌公司的Gmail
用户界面是用户和信息系统进行信息传递的接口,是系统信息架构和应用结构的最终可视化体现。同时,用户界面也是信息导航功能的主体,它为用户提供获取信息的途径,扮演着非常重
随着计算机技术的迅猛发展,虚拟现实技术已经被应用在很多领域,同时对图形生成的真实感和实时性两个方面都提出了极高的要求。对于静态的文物场景来说,采用预计算渲染技术能
近年来,进化多目标优化(Evolutionary Multi-objective Optimization,EMO)算法研究逐渐成为进化计算研究领域的一个重要内容。EMO算法一次运行就可以获得一组具有代表性的Par
移动机器人由于行动灵活、完成复杂任务能力强,在当今社会应用越来越广泛。移动机器人的自主导航功能,作为移动机器人是其最基本、最重要的功能,一直以来都被各领域研究者所关注
随着数据挖掘技术在各行各业的广泛应用,人们对这一领域的相关技术越来越关注。数据聚类和社区发现是数据挖掘领域中十分重要的两个课题,它们之间也有一些共性。聚类是指将数据
随着全球经济的飞速发展,现代物流服务已成为世界各国促进产业结构调整、转变经济发展方式和增强国民经济竞争力的重要手段,也是国家现代化程度和综合国力的重要标志,因此对
传统的基于文本的图像检索存在耗费人力、信息不完整、歧义性等问题,促使了基于内容的图像检索的出现。基于内容的图像检索分为基于全局特征的方法和基于局部特征的方法。基