论文部分内容阅读
随着当代互联网应用的发展,P2P(Peer-to-Peer)已经成为发展最快的网络应用之一。由于P2P技术具有文件共享、分布计算等优点,使得P2P流量占据了网络流量大部分的同时其技术也得到了广泛的应用。但P2P技术所带来的网络拥塞和资源的过度占用等一系列问题对于正常网络业务的发展是一种阻碍。为了保证网络正常有序的运行,有必要对P2P流量进行管理,这是在享受P2P带来的便利的同时必须要考虑的一个问题。然而,随着P2P技术的飞速发展,P2P应用为了避免自身被轻易察觉出来,纷纷采用了各种技术如动态端口、协议字段加密等,P2P流量识别技术也随之面临着严峻的挑战。由于端口跳变,负载加密等流量隐藏技术的发展,利用应用端口和内容等的显式特征P2P流量识别方法已经逐步被淘汰。因此,实现P2P流量的有效识别已经成为急需解决的问题。本文就基于聚类分析的P2P流量识别问题展开了研究,其主要的研究工作和创新点为:(1)针对P2P流量识别问题的研究背景和意义,国内外研究的现状,以及P2P技术的发展所带来的一系列问题,研究了当前存在的几种典型的P2P流量识别方法,并分析了这些识别方法在识别P2P流量过程中的特点和存在的问题。(2)对P2P流量的特征进行了比较深入的分析和研究,通过实验选取了五种能够显著区分P2P流量的属性特征,并提出将下载与上传速度比属性用于P2P流量的识别中,五种特征属性的结合在保留了P2P流量特征中尽可能多的信息同时,最大程度的降低了属性之间存在的较多冗余度,从而能够更有效更精确的识别P2P流量。(3)给出了一种基于聚类分析的P2P流量识别算法,该方法将数据集分解为子聚类的集合以降低聚类问题的规模,并减少I/O处理的复杂度。同时,算法中加入的贝叶斯信息判别准则能够选择出最佳的聚类模型,从而达到自动划分聚类数的目的,尽可能的减少了识别过程中人为因素的影响。通过实验表明,该算法的准确性较高,并且误判率较低。