特征选择算法及其在网络流量识别中的应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zj149099548
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是从原始特征集中选取特征子集以使特定评估标准最优的过程,是机器学习、数据挖掘以及模式识别中的一项重要技术,是当前信息领域研究的热点之一。高维数据的不断涌现对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。基于流特征的网络流量分类或应用识别是网络测量领域的一个研究热点,而已定义的流特征有上百个,因此特征选择显得尤为重要。本文首先介绍了特征选择算法的基础知识,并简要介绍了两种典型的特征选择算法--ReliefF算法和互信息算法。结合两者的优点,并考虑到阈值的合理设置对于算法性能的重要性,提出了一种结合Wrapper思想的基于ReliefF算法与互信息度量的多类别分类的特征选择算法--RF-MI算法。该算法运用ReliefF算法去除无关特征,运用互信息度量去除冗余特征,根据分类性能评价不断迭代调整阈值,以期许达到更好的分类性能。实验结果表明本文提出的算法在分类准确率和特征维度约减效率上优于其它特征选择算法。特征选择算法主要分为Filter式和Wrapper式两大类,Filter式算法运行速度快但准确率低,Wrapper式算法运行效率低但准确率高,这两种方法具有很强的互补性,因此将Filter式算法和Wrapper式算法结合起来,充分利用两者的优点,提出了一种基于互信息和遗传算法的组合式特征选择算法--ISU-GA算法。在UCI数据集上的实验结果表明算法具有良好的分类性能。最后,本文将RF-MI特征选择算法和ISU-GA特征选择算法应用于网络流量识别中,并通过实验进行了比较与分析。在Trace Andrew系列数据集上的实验结果显示算法在保证了分类准确率的同时,较大幅度地降低了数据集的特征数目,达到了较好的特征约减效果,从而降低了构建分类模型的时空复杂度。综合考虑分类准确率和特征维度约减效率,ISU-GA算法的分类性能是比较优的,局限性在于耗时方面相对而言仍然比较多。
其他文献
随着网络信息化的快速发展,可靠的网络协议成为保障网络稳定的重要因素。对网络协议进行验证不仅可以最大限度地检测和纠正协议开发前期的错误和缺陷,还可以对已设计的协议进
变化背景指的是视频图像序列中目标的背景是动态的、可变的。传统的目标检测与跟踪系统中,背景相对静止或者背景变化但较为简单,仅作为噪声来处理,而现实情况中背景变化对目标检
云计算是由一系列可动态伸缩的资源组成,这些资源通过虚拟化技术提供给云计算用户,用户通过网络按需租赁云计算资源,从而减少用户终端的处理负担,并能享受云端强大的计算能力
脑机接口技术是计算机、生物医学、神经科学、材料等学科交叉的国际热点前沿技术之一。它不依赖于大脑外周神经和肌肉系统,在脑与外部设备之间人工搭建一条通讯控制通路。根
  以大面积、无损的冬小麦蛋白品质监测预报为目标,基于WebGIS技术,实现了冬小麦蛋白品质遥感监测预报系统。研究从冬小麦收获前期品质趋势预报和冬小麦收获期品质监测两个内
在无线局域网中,人们对使用IEEE802.11的基于定位的服务和传感器网络进行了一系列的研究,为此类网络的新应用和总价值提供了新的视野。在这种基于定位的服务中,用户的物理位置直
随着互联网的普及和发展,各种金融和商业活动都频繁地在互联网上进行,Internet/Intranet技术已广泛应用于社会的各个领域,不仅给人们的生活带来了许多便利,而且使得人们的生
行人的检测和跟踪一直以来都是计算机视觉领域的一个研究热点,在视频监控、军事科技、智能交通管理等方面都有着非常广泛的应用。当前大部分计算机视觉系统采用的普通镜头的所
通过分析作品的写作风格来识别作者这一研究在国外很早就开始了,它有很多应用,比如可以帮助人们鉴定某些存在争议的文学作品的作者、判断文章是否剽窃他人作品等。而国内这方
  RFID技术是近年来应用逐渐成熟的识别技术,由于RFID标签具有非接触识别、存储容量大、传输速度快、身份标识的唯一性与无法复制性、可并发识别等特点,可以将RFID标签附着在