论文部分内容阅读
互联网技术的迅猛发展,极大地改变了人们的生活,新闻浏览器、网上购物软件、电子商务、视频会议、聊天工具等各种网络应用不断涌现。随着大量的新型网络应用出现,海量的数据在互联网上飞速传输,尽可能准确快速地识别网络应用类型,从而过滤掉非法的网络APP的流量,控制某些大数据网络APP的传输比例和速率,确保关键性业务的正常运行,及深度优化其关键业务的服务质量,对网络的控制和管理起到了至关重要作用。当前网络环境下许多新型网络应用迅猛发展,而相当一部分的网络新应用采用的是随机端口,这使得基于网络端口的网络流量分类方法严重失效,深度包检测(DPI)方法尽管相对于其他方法,在准确率方面有较高的提升,但是特征码的匹配采用的是字符串或者正则表达式的形式,使得在匹配过程中花费时间很长,并且对于载荷特征库有很高的更新维护成本。在当今超大数据流量的网络环境下DPI方法很难适应。而基于网络流行为的网络流量分类方法只需要得到流的基本行为特征信息,执行效率相对有所提高,成为网络流量分类技术发展的新趋势。基于网络流行为的识别方法需要一个前提假设,就是属于同一个应用类别的对象存在一组相对稳定的特征结构,该特征可以是与应用类别相关的任何属性信息。本文从不同角度观察分析了网络流的行为统计特征,利用这些行为特征和数据挖掘算法有效区分不同应用类型的网络流,主要工作分为以下四个部分:首先,从网络流的行为统计特征出发,针对传统的基于有监督机器学习的分类方法对所有应用使用相同的特征使得某些特征对一种或几种应用类型有区分性,而对其他应用类型的网络流分类产生干扰等问题,提出采用基于子空间聚类算法的网络流分类方法,该方法可以识别新出现的未知应用。其次,研究了网络流中数据连接之间的关系,用实验验证了链路相似性原理的存在,并提出了基于链路相似性的网络流量识别方法。该方法只使用网络流的节点信息,不依赖于载荷信息。最后,研究了网络流的交互行为,发现P2P网络存在的特殊的交互模式,将网络流之间的交互特点通过图度量的形式抽象出来,提出基于网络流行为统计特征和图模型特征相结合的P2P流量识别方法。