基于半监督学习的P2P协议识别

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:pridekao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协议识别是进行有效的网络管理与控制的重要条件,由于新的P2P软件(以Skype,Emule,BitComet,迅雷为代表)开始使用加密协议和协议伪装等技术手段来防止被网管探测、识别、封堵,传统的根据协议特征码来识别的方式已经难以识别这些软件产生的流量。基于流量特征的P2P协议识别的方法是目前研究的主要方向,将机器学习的理论与模型运用到协议识别领域是发展的一个趋势。   通过对传输层数据包(包括TCP和UDP数据包)进行分析,并结合P2P系统所表现出来的流量特征,来识别某个网络流是否属于P2P。这类方法包括:TCP/UDP端口识别技术、网络直径分析技术、节点角色分析技术、协议对分析技术和地址端口对分析技术等,但是其准确性和识别率不如特征码识别。   本文就基于半监督聚类的模型运用到识别具体P2P应用的可能性进行了分析与实验,提出了一种基于Newton-Raphson方法学习特征权值矩阵的训练的办法,在依据P2P应用特征选取连接特征的基础上进一步提高系统识别准确率和召回率。在本文的实验环境下,针对具体的BitComet和Emule应用的识别器的识别率和召回率均达到了85%左右,在加密协议的识别上取得了不错的效果。   如何优化系统的识别准确率和召回率,提高系统效率是本文重点研究并试图解决的问题,主要包括以下三个方面的成果:   一、实验并分析了基于半监督学习的聚类模型在加密P2P应用识别上的效果,同时总结了一套分析P2P协议特征的办法。   二、将Newton-Raphson方法引入到连接特征的选取上,将特征权值矩阵用于距离的计算,进一步提高了训练和识别的效果。   三、基于KD-Tree的识别器的实现使得整个在线识别过程能在内核的协议层高效实现,有效的控制了系统的计算复杂度。
其他文献
随着Java技术的逐步发展和完善,B/S结构的流行,基于J2EE的管理信息系统的研究也日益成熟。本文对保险销售管理信息系统功能与业务流程进行了系统的分析,并结合J2EE框架的技术
自然场景行人视觉导航是一个具有很好的实用价值又极具挑战性的课题。随着场景识别、机器学习、计算机视觉和深度学习等相关领域的发展,近年来基于图像全局匹配的行人视觉导航
长期以来,数据库领域的主要研究方向是磁盘数据库,在磁盘数据库中,内存主要作为数据的临时缓冲区,用来提高数据库系统的性能,内存与磁盘之间的I/O操作是影响数据库性能的主要
学位
图像融合就是采用一定的算法,把工作于不同波长范围、具有不同成像机理的传感器对同一场景的多个成像信息融合成一个新的图像,从而使融合的图像可信度更高,模糊较少,可理解性
基于QOS信息的服务型构件选择系统的设计与实现软件资产库是对可复用资产进行管理的基础设施,提供了资产描述、分类、发布、存储、检索、反馈等资产管理功能。随着分布式技术
近几年来,随着LBS、GPS及导航应用的迅猛发展,人们对电子地图的需求越来越旺盛。本文结合通图(www.tongmap.cn)工程建设及VegaGIS平台软件的地图注记自动配置模块的工具构建,以
基于实例数据合成逼真人体运动是近年来计算机动画研究的热点。由于运动捕获是针对特定场景采集特定运动,为了满足实际中不同的应用需求,利用已经捕获到的实例数据合成新的人体
该文首先分析了课表问题中的各种因素,以及人工排课的模拟过程,确定了课表问题是一个具有不确定性、NP完全的组合优化问题.为了能够有效地解决课表问题,我们采用了基于遗传算
随着数据库管理系统负载的多样化和复杂化,手工管理其性能变得越来越困难。而网络应用所产生的负载增长迅速和难以预测,需要为每个网络应用制订灵活的、有保证的性能要求。如何
现场总线(Fieldbus)是八十年代末九十年代初国际上发展起来的用于过程自动化、制造自动化、楼宇自动化等领域的现场智能设备互连通讯网络。它作为工厂数字通讯网络的基础,沟