论文部分内容阅读
近年来P2P应用的迅速发展使得越来越多的网络资源被娱乐性流量消耗,为网络安全也带来了不少隐患,影响了其它业务的正常运行。为改善网络环境,必须对过大的P2P流量加以控制,但控制的前提是必须能有效识别P2P流量,因此P2P流量特性分析和识别成为网络服务提供商和一些企业亟待解决的问题。现在国内外流量识别方法更多关注的是基于TCP协议的P2P应用。从国外网站提供的流量来看,早期的P2P业务流量的确更多的是使用TCP协议传输数据。但随着P2P技术的发展,以及其与流媒体技术的结合,使得UDP协议在P2P应用业务流中的重要性不可被忽视。此外,前期的P2P流量识别算法大都以P2P文件共享类应用为研究对象,较少考虑流媒体这种边下载边观看的业务流量特性。考虑到UDP协议在P2P技术中越来越重要,本文主要以UDP流作为研究对象,研究P2P流量特性和识别。论文的主要研究工作如下:(1)对现有的主要的P2P流量识别技术进行了总结和分析,指出目前P2P流量识别中存在的问题。(2)针对国内比较流行的四种P2P流媒体应用进行分析,发现这四种流媒体应用都存在应用层协议特征,虽然这些特征不像BT应用那样使用明文协议,但仍可以通过统计分析归纳出各应用协议特征;接着给出了基于协议特征匹配的P2P流媒体流量识别算法,通过理论和实验验证了该算法的有效性。因为所总结出来的协议特征几乎出现在每个UDP包中,不存在TCP协议中出现丢包就无法捕捉到协议特征,从而导致无法识别流量的情况。(3)为解决协议特征变更和协议加密带来的算法识别问题,在综合分析P2P流媒体和文件共享应用流量特性的基础上,本文利用支持向量机,通过对P2P流量特征属性训练学习建立分类模型,采用归一化处理平衡各属性值之间的影响,并利用网格搜索法寻找最优参数解决参数选择问题。该算法克服了设置阈值和参数选择的问题,能有效识别P2P流量。