文本类多协议特征发现方法

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:haohailinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年网络流识别吸引了越来越多人的兴趣,准确快速的识别网络流应用层协议数据所属协议类别,将对当前网络的运行和管理带来重大现实意义,有助于深化网络流工程学,网络容量设计和分配,QoS服务质量控制,网络性能监控,异常根源分析和安全监控等研究。   在流识别方法上,传统的基于IANA(Internet Assigned Numbers Authority)列表中的注册服务端口进行网络流识别的方法,如认为80端口即为Web流量信息,而25端口即为邮件信息的方法,已经越来越不适应网络协议的快速发展以P2P为代表的动态端口技术和以防火墙穿透为代表的端口复用技术等使得单纯的基于端口进行协议识别的方法准确率越来越低,已逐渐被其他方法取代。当前的网络流识别研究转向基于流特征的识别方法。   文章首先回顾了现有的网络流识别方法,简要介绍了当前基于行为属性特征和基于内容属性特征的两类流识别方法的基本情况,然后对两类方法的优缺点进行对比和分析,最后给出本文提出的流识别方法:文本类多协议特征自动发现方法。   文本类多协议特征自动发现方法是一个基于内容的流识别方法,处理的是协议数据中ASCⅡ占主体的文本类协议,可以对存在多协议混杂并存情况的真实网络数据进行自动归类并提取协议特征。该方法通过一组解析规则将文本类协议数据内部存在的高层语义信息转化为可比较的形式,然后基于“相似内容属于相同协议”的假设和“一个TCP连接的两个方向的数据属于同一个协议”的定理对原始数据进行协议归类。这种协议数据归类方法获得比当前的其他归类方法更好的效果。   本文方法和当前的其他网络流特征提取方法的主要不同之处在于对原始数据协议类别进行划分的过程:当前许多网络流识别方法是以某个特定协议的数据作为训练输入,这类数据的获取方法或通过人工标注或基于端口,由于这两种方法或者工作量太大或者精度不够高,都不完善。   本文的主要贡献为:   (1)在输入数据中没有任何标注的情况下,自动对协议数据进行归类和协议特征发现   (2)将输入数据类型划分为文本类协议数据和非文本类协议数据   (3)对文本类协议数据语义信息的解析和提取,并给出两个流的协议数据解析结果的相似性度量方法   (4)提出一个文本类协议特征的形式定义   (5)具有小流量协议发现能力   (6)对广域网背景下文本类协议数据的处理,本文方法比当前其他方法具有更好的协议特征发现能力,并获得更好的流识别结果。
其他文献
随着Internet网络技术的不断发展和应用领域的日益拓宽,许多新的服务如网上直播、远程诊疗等不断展现出来,开展这些服务离不开网络环境中的组播技术的支持。组播技术是相对于
通过引入欧氏空间的连续自映射不动点算法提出求解函数优化问题的改进遗传算法,并提出了两种分别针对单目标和多目标优化问题算法模型。这两模型都将剖分理论引入遗传算法,对
目前,在P2P文件共享系统中,以色情和政治不良倾向为代表的敏感资源广为传播,对社会造成了很坏的影响,如何识别并过滤这些敏感资源,成为当前P2P文件共享系统所面临的一个共同技术挑
文本检索通常分为两个阶段,初始检索和重排序。初始检索目标是以较低的代价从整个文档集合中检索出一小部分文档,使其包含尽可能多地相关文档,即具有较高的召回率。初始检索过程
随着互联网上资源的不断丰富,越来越多的人们通过网络进行资源的搜索,共享,浏览和下载。在P2P对等系统中,用户的这些行为和需求体现得更加明显。在传统的方法中,人们通过关键词搜
在煤炭这个行业中,特别是在我国,瓦斯灾害一直困扰着我们。开采煤矿的整个过程中,特别是随着煤炭开采深度的增加,在安全这个方面上出现的问题是越来越多,因为瓦斯爆炸而出的
传统的机器人遥操作模式大多数是基于视频反馈技术,操作者采用“运动-等待”的方式,一方面由于有限的网络带宽不能准时正确地传输远程的数据图像而导致误操作,另一方面网络时
索引技术是现代信息检索、搜索引擎和数据挖掘的关键技术之一。对于大规模文本检索系统,倒排索引是目前为止最高效的数据索引方法。倒排索引包含了词(Term)对应文档的关系信息
在数字信息时代,人们对信息的需求表现得前所未有的强烈,尤其是在互联网浪潮席卷全球之后,这种需求达到了极至。庞大互联网的出现,给我们提供了无穷的学习资源。伴随搜索引擎
在教育领域,人们一直在尝试着将计算机及互联网技术应用于教学活动中,提高计算机教学辅助化工作的水平。在一般的课程管理系统(Course Management System, CMS)之外,面对计算