基于决策树的P2P流量识别研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:shanshan0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着P2P应用在文件共享、即时通信、流媒体传输等领域的不断发展,P2P流量已经成为不可忽视的网络流量。根据相关调查,自2004年起P2P流量已经占全部流量的60%以上。就目前来看,仅仅提高网络容量很难应对这种局面,因此有效的研究P2P流量的识别和过滤技术是当前最有效的解决方法。本文从P2P流量识别的工作原理和实现机制入手,分析研究了P2P流量识别中存在的问题和实现有效P2P流量识别方案需要的技术,其主要的研究工作和创新点为:(1)本文从P2P流量识别的工作原理入手,总结了现有P2P流量识别技术,包括端口识别技术,基于深层数据包的检测技术,基于机器学习的识别技术和基于网络行为的识别技术,分析它们的利弊,并提出将机器学习方法应用在P2P流量识别中。(2)重点分析研究了各类机器学习算法在流量识别中的应用。使用属性选择算法进行属性选择,提出了基于机器学习算法的流量识别以及性能分析方法,并通过实验得出了基于决策树的机器学习算法在大规模数据集中的性能最优的结论。(3)根据对P2P流量特征的分析,通过实验选取了四种能够明显区分P2P流量特征的属性。编程实现了流量处理模块,对采集的大量数据进行了实时分析和计算并得到训练集和测试集。结合改进的快速决策树(very fast decision tree, VFDT)算法对所选的四种属性特征进行性能分析,并得出P2P流量识别的决策树模型。虽然P2P技术已经发展的十分成熟,仍然存在识别准确率不高等缺点。进行P2P流量识别技术的研究不仅可以为运营商提供行之有效的解决方案,更能有效解决其他业务用户带宽被大量消耗的问题,使用户能够在更愉快的环境下享受网上冲浪带来的乐趣。
其他文献
该文提出了实现多级文语浏览器的基本思想.该系统以基于组件的软件设计方法为基础,把多级内码的相关理论与TTS技术有机地结合起来,将浏览器的汉字处理水平提高到词一级,填补
贝叶斯网络理论是一个具有广阔应用前景的较新的研究领域,静态贝叶斯网络的研究尚有待进一步完善,而动态贝叶斯网络的研究正处于初期阶段.该文对具有连续变量的动态贝叶斯网
云计算服务提供了面向服务的框架、开放的标准和可伸缩的系统,使云服务提供商可以为用户提供可靠的、按需分配的服务,多租户技术是云计算的关键技术,它在应用层的实现方式能
本文对IPSec的体系结构、ESP协议、AH协议进行深入研究,提出了在Linux上实现基于IPSec协议的VPN安全网关的设计方法,并讨论了在隧道模式下ESP协议和AH协议在Linux上的的具体实
该文从软件工程的管理和实施出发,提出和设计一种基于软件体系结构的、支持软件工程的体系结构描述和建模方法以及在该理论指导下的可视化体系结构描述和生成工具.作为软件设
联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求.用户的决策分析需要对关系数据库进行大量计算才能得
该文研究的目的就是寻求适合中国国情的评价与比较信息化水平及发展的指标体系,提出指标体系的测算方法,从而对全国及各省(区、市)信息化水平、发展进程、存在的问题进行客观
面对用户需求个性化、多样化以及快速多变的国际市场。企业应充分利用以网络为核心的信息技术,创建一条贯穿于客户、企业内部和企业之间的信息通道,实现对全球分布的设计资源的
该文介绍了有关供需链,尤其是敏捷供需链的相关概念和管理模型,然后将当前计算机领域(尤其是AI领域)非常热点的代理(Agent)技术作为一种解决策略,应用到敏捷供需链的建模以及
文章主要研究了绿卡系统中基于第三方服务的客户机与服务器之间安全通信系统的设计与实现.在计算机不断发展的今天,网络通信安全已成为一个重要的问题.该文设计的绿卡系统中