论文部分内容阅读
上世纪九十年代末,P2P(Peer-to-Peer,对等)网络技术伴随着著名的MP3共享软件Napster的出现重新登上了历史的舞台,自此许多基于P2P技术的应用应运而生,并以迅雷不及掩耳之势快速发展。各类P2P应用为人们的工作和生活提供了多样化的服务,为企业带来了巨大的商业价值;然而它在给人们带来极大便利的同时也产生了许多负面影响,例如:大量占用网络带宽导致网络拥塞,影响了服务的可用性、可靠性和服务质量;文件共享导致的法律隐私问题等等。因此,如果能及时检测出网络中的P2P流量并对其进行合理的监控,对于保障网络的安全具有非常重要的现实意义。
本文首先分析了P2P网络技术的优缺点,进而引出对网络中P2P流量进行识别研究的必要性。然后对当前国内外典型的P2P流量识别技术作分类介绍,比较并归纳了其优缺点,在此基础上提出了一种基于机器学习一遗传概率神经网络的对等网络流量识别方法,即首先使用Relief和CFS特征选择算法相结合的方法选取最优特征集,减少冗余,降低特征向量的维数,确定并提取特征向量;然后使用遗传算法优化概率神经网络的平滑因子σ并构造概率神经网络分类器;最后将特征向量作为优化后的概率神经网络的输入进行P2P流量的识别。总之,论文的主要工作如下:
(1)深入分析了P2P流量区别于其他网络流量的典型特征。鉴于较少的特征属性不能完全体现出这两类网络流量的区别,而较多的属性又会影响分类器的性能,本文引入Relief-CFS特征选择算法提取最优特征集,降低特征向量的维数。
(2)给出了一种流量特征和概率神经网络相结合的方法对网络流量进行分类,克服了当特征向量的维数增加时,难于使用阈值分类的弱点。
(3)对于概率神经网络概率密度函数中平滑因子σ值难以确定的问题,引入遗传算法对σ进行优化,选取最佳的平滑因子值。
(4)针对上述方案在MatlabR2010a中进行仿真验证,从虚报率、漏报率和正确率三个方面对其进行评估,对比实验表明本文提出的将遗传概率神经网络算法用于P2P流量识别的方案是可行的。
(5)在上述工作的基础上,基于.Net开发环境,设计了一个P2P流量识别原型系统,可同时用于离线和在线流量识别。