论文部分内容阅读
随着互联网的不断发展,P2P (Peer-to-Peer)技术凭借着优于传统C/S模式的网络结构以及高效的处理能力为人们的生活带来了很大的便利。同时随着人们对互联网应用需求的不断上升,基于P2P技术的文件分享、语音服务以及流媒体等应用得到了迅猛地发展,但由于P2P本身结构的特点使得其对网络管理和维护带来了诸多困难,主要体现在P2P应用占用巨大的带宽资源,引起网络拥塞,从而影响其他业务的正常使用。而且P2P应用仍在不断尝试躲避监管,利用随机端口、隧道机制或应用层加密等手段使得常规的流量识别方式对其监测不能有效的进行。因此,准确有效地识别P2P流量成为目前P2P流量监管任务所面临的首要难题。本文首先对当前P2P流量识别中已有的识别方法进行了分析,具体内容包括基于端口号的流量识别、基于深度报文检测的流量识别、基于流量特征的流量识别和基于机器学习的流量识别。由于基于机器学习的流量识别方法是当前流量识别领域的研究热点,文中重点对几种常用的机器学习算法进行了分析。其次,针对P2P流量识别中的特征选择问题,研究了相关的特征选择方法,并着重分析了两种典型的特征选择算法在P2P流量识别中的适用性,即基于相关性的特征选择算法(Correlation-based Feature Selection, CFS)和基于一致性的特征选择算法(Consistency-based Feature Selection, CON)。实验结果表明,在P2P流量识别中利用CFS算法进行特征选择,可以在保证识别准确率的前提下缩短算法的训练和识别时间。最后,针对P2P流量识别中当训练样本标记比例较低时识别率会发生恶化的问题,提出了一种基于半监督策略的近邻传播(Affinity Propagation, AP)聚类算法,其核心思想是利用少量给定的有标记样本作为监督策略进行聚类,具体的实施步骤为:(1)对-定比例的训练样本进行标记,并促使其通过优先竞选成为类代表点;(2)通过有标记样本的消息传递进行聚类;(3)按照相应的“标记-类别映射”规则完成P2P流量的识别。对于算法中的两个关键参数,阻尼系数λ和偏向参数p,本文也通过一系列的实验研究了二者对算法识别性能的影响,并给出了实际应用中的建议值。实验结果表明,与有监督的核估计朴素贝叶斯(Naive Bayes using Kernel density estimation, NBK)算法和半监督的K-means算法相比,本文算法在训练样本标记比例低于20%的情况下具有更高的识别准确率和更低的误识别率。这就意味着,当本文算法应用于P2P流量识别时,可以在保证识别性能的前提下,降低对训练样本进行标记的工作强度,这就使该算法在流量识别领域具有了较高的推广应用价值。