论文部分内容阅读
近几年来,P2P(peer-to-peer,对等网络)业务和应用迅速发展。有关调查表明,P2P业务已占据了互联网业务总量的60%~80%,成为超重量级的宽带互联网应用。P2P业务的不断增加,在广大用户受益的同时,造成了网络带宽的巨大消耗,甚至引起网络拥塞,降低了其他业务的性能。对于企业用户来说,内部员工利用企业网收听音乐或收看流媒体造成了巨大的网络资源浪费;而通过并不安全的网络环境获得的P2P应用程序,将可能打开后门,使病毒和恶意代码得以潜入内部网络。因此,在企业网中有效识别和控制P2P流量是非常必要和重要的。P2P应用的领域有许多种。最占用网络带宽的是P2P文件共享应用和近年来兴起的P2P流媒体应用。对于前者的识别,已经有很多研究者做出了很多富有成效的研究;但对于后者,因为是近2年才兴起,故对其识别的研究还相当有限,几近空白。本文将对如何识别P2P流媒体流量进行探索与研究。因为目前的P2P流媒体软件都是商业软件,协议不公开,故无法通过协议了解其通信原理及实现细节。由于P2P流媒体技术是P2P网络通信技术与流媒体技术相结合的产物,所以要想识别P2P流媒体的流量,就必须要对传统的P2P应用的原理及其识别方法有所了解。本文在第二章详细介绍了P2P的原理、研究现状、对P2P流量的检测技术等等,从中可知,商业上应用最广泛的P2P流量检测技术是基于应用层签名的。要使用基于应用层签名的识别技术,第一步是要找出应用层签名来。但各P2P流媒体软件都是商业软件,协议不公开,因此要发掘出它们的应用层签名难度较大。在第三章,首先对5款已知的P2P文件共享协议进行了详尽的分析,总结出它们关于应用层签名的几条共性,用以指导对协议未知的P2P流媒体软件的应用层签名的研究;接下来通过抓包实验对P2P流媒体软件的应用层签名进行了初步的探索,通过反复的实验和对几条共性的分析,在第三章最后提出了一个应用层签名的自动发掘算法,并通过该算法的实现取得了实验成果。但是因为自动发掘算法本身有局限性,而应用层签名识别技术本身也有一定的缺陷,所以有必要探索其他的识别方法。在第四章中,为了弥补应用层签名识别技术的不足,提出了一种“基于连接特征的P2P流媒体流量识别算法”,该算法通过观察P2P流媒体应用的连接统计特性来识别P2P流媒体,它可以不必关注特定的传输内容就能进行识别,因此大大缓解了未知协议的应用层签名难于发现的问题。最后,通过一个实际网络环境下的实验,对该识别算法进行了验证。本文第三章和第四章是重点,而第四章更为重要。