基于正则表达式匹配的网络流量识别系统的研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:qiuyu19860916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的高速发展,网络带宽不断增加,网络协议层出不穷,对于网络安全需求日益明显。在此环境下对网络流量识别和分类提出需求。网络流量识别可以用来监测网络运行情况、检测网络入侵、分析网络应用构成、限制网络应用等功能。随着新协议的大量出现和P2P技术的广泛使用,网络应用不再严格遵循特定应用使用特定端口的规则。在此背景下传统基于端口特征的网络流量分类方法变得无能为力。为了准确识别网络流量,人们提出了对网络数据包载荷进行深度检测分析的识别方法。该方法首先对网络数据进行流量恢复,然后提取数据流中的应用层数据载荷。通过应用层数据载荷与各种网络协议规则的匹配,确定该网络数据流的协议类型。该方法被称作深度包检测(Deep Packet Inspection, DPI)。由于正则表达式比精确字符串表达能力更强,在深度包检测方法中,各种网络协议规则多用正则表达式来表示。虽然深度包检测技术对于网络数据流的识别准确性较高,但其识别速度较低,不能满足高速网络带宽环境下识别的要求。在传统深度包检测匹配引擎中,正则表达式规则采用NFA模式来实现,匹配时存在着大量的回溯现象,因而匹配速度较低。为了提高匹配速度可以使用确定型有穷自动机(DFA)方式来实现正则表达式规则。该方法不存在回溯现象且可以通过一次扫描匹配多条正则表达式规则。但确定型有穷自动机规模会随着规则的条数的增加而呈指数倍上升。当规则条数较多时,该引擎甚至由于规模较大而无法实现。本文根据网络上各种网络应用流量分布不均衡这一特点,提出了对网络协议加权设置优先级的识别方法,并提出了具体的加权分组算法。该方法根据协议流量在网络上分布比例的不同,通过分组算法对网络协议进行分组、设置不同的优先级。对于高优先级的网络协议组,采用DFA的形式来实现,对于大量的低优先级的协议组采用混合自动机(Hybrid-FA)的方式来实现。由于DFA分组内规则的条数较少,则与之对应的引擎规模较小。同时由于DFA分组对应的网络流量比重较大,因而大量的未知数据流量经过DFA部分就可以被识别出来。在混合自动机分组内,由于混合自动机使用了DFA头部,则回溯匹配大量减少。该算法可以使网络数据流识别引擎在维持一个较小规模的基础上,大大提高识别速度。通过对实验结果分析可知,该算法相比于传统识别引擎,匹配速度可以提高29倍左右。以本文所提出的加速算法为核心,我们构造了一个网络流量识别系统。该系统分为数据镜像模块,数据识别模块,数据库模块和显示交互模块四部分。该系统通过镜像模块获得网络内的数据,并将镜像数据传送到网络系统的核心模块:网络数据流识别模块。识别模块将识别结果写入数据库模块供显示交互模块使用。系统显示交互模块通过对数据库的操作可以将网络流量识别结果和网络运行情况直观展现给用户。
其他文献
调度问题这些年已经成为计算机科学中的一个重要问题,其中计算复杂度分析,CPU调度算法的选择,云计算与网格计算中的资源调度和任务调度等问题已经成为研究热点。以上都和经典
在很多实际应用中,数据的不确定性是普遍存在的,例如传感器网络、信息抽取与数据整合系统、科学数据管理系统等。传统的关系数据库采用结构化的存储方式,不适用于不确定数据的存
软件复用是提高软件质量以及生产效率的有效途径。构件和模型技术是组成软件复用的核心技术。它们的不断发展与成熟为软件开发提供了新的模式,工程界和学术界都围绕这些技术展
特征点匹配作为计算机视觉的主要研究内容之一,也是摄影测量的重要环节之一,因此,结合具体应用对新的特征点匹配方法的探求具有非常重要的意义。本文在研究特征点匹配原理和现有
闭环供应链的提出是发展资源节约型和环境友好型社会的必然要求,不少学者对基于再制造的闭环供应链进行了研究,但是,市场环境不断在变化,企业要想在动荡的市场环境中立足,就应顺应
图像质量评价已经从图像处理中分离出来成为一个独立的研究领域。图像信息的最终接受者是人,所以主观方法是可靠的。但需要多次重复实验,费时,难以应用到实际中。客观图像质量评
随着情感识别在自驾游、案件侦破和游戏产业等领域中应用前景和市场价值的凸显,面部表情作为情感识别中的关键,已成为拟人化新型人机交互模式研究中的关键课题之一。本文针对不
随着互联网的飞速发展,各种各样的网络攻击手段层出不穷,网络安全问题面临巨大挑战。对此,企业、组织、研究机构等为保护重要信息和减少经济损失部署了大量的网络安全设备。
随着信息技术的不断发展,因特网上的网页数量日益激增,但是Web页面的复杂程度使得人们很难准确而快速地获取自己所需的信息。为了使人们能够迅速从网络中获取到自己感兴趣的
随着互联网技术的飞速发展,在线社会网络逐渐变得庞大并且结构复杂,所呈现出来的社区结构通常是可重叠的,如何准确有效地发现这些复杂社会网络中的重叠社区结构,是社区发现领