论文部分内容阅读
随着互联网应用的快速发展,网民对互联网应用使用有了广度和深度的提升。网络应用已经呈现出越来越多类别,致使网络流量剧增,占据了巨大的网络带宽,不利于高质量的服务,给网络运营商者带来沉重的管理负担,同时也影响网络使用者上网质量。暴涨的网络流量中P2P流量占绝大部分,P2P网络应用流量的暴涨主要体现在目前音视频和文件共享类应用的使用。大量高清音视频的在线直播以及大文件的上传和下载占据了很大比例的网络流量。比如迅雷、QQ旋风、uTorrent和百度影音等软件的用户越来越多,消耗了大量的网络带宽,使网络拥塞致使服务下降,并产生侵犯知识产权的问题。提升P2P网络流量分类准确率,对于科学规划网络,保障网络安全和提高服务质量具有重要意义。 而P2P网络应用大部分没有通用的RFC文档说明,通信网络结构比较复杂,没有固定的端口和负载特征。自斯诺登曝光了NSA监控项目之后,P2P应用加密流量不断递增。传统的流量分类和应用识别方法已经达不到稳定可观的应用识别率这些问题。本文主要研究P2P网络应用流量分类问题,针对关口P2P流量集成了负载特征和机器学习以及时空关联的分类方法。首先解决如何自动高效地捕获纯净的P2P应用流量,详细分析应用通信的原理以及交互过程,并解析提取应用的负载特征以及数据流的统计特征。然后进行有效特征的提取和选择,先通过负载匹配来识别P2P应用,再基于流统计特征运用C4.5决策树对P2P流量分类,中间采用主机关联和分类日志关联的方法来提高在线识别P2P流量的准确率。方法的主要创新在于计算P2P流统计特征采用前几个数据包,没有计算整条流,在线分类中采用了基于时空关联的方法来挖掘误识别应用。 在面向P2P流量研究负载特征分类和集成机器学习和主机关联的方法上,本文构建了一个P2P应用流量在线识别的系统,并进行大量的实验来验证系统的预期效果。对流量分类系统进行测试和分析,发现分类系统可以针对关口的P2P应用流量进行稳定的分类,并且分类准确率较高,具有一定的实用价值。