基于TCAM的高速可扩展的正则表达式匹配技术

被引量 : 0次 | 上传用户:libq19811022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则表达式匹配(Regular expression matching)是很多网络应用(如入侵检测、内容过滤、协议分析等)的核心引擎技术,随着互联网及网络应用的高速发展,对高速可扩展(fast and scalable)的正则表达式匹配的需求越来越大,但多年来如何实现高速可扩展的正则表达式这一难题一直困扰着研究者们。正则表达式用等价的有限自动机表示,包括非确定性有限自动机(non-deterministic finite automaton, NFA)和确定性有限自动机(deterministic finite automaton, DFA)。NFA所需存储空间很小但是匹配速度很慢;DFA由于匹配速度很快使得DFA方法成为了实现正则表达式匹配的普遍选择,但DFA的高匹配速度是以可呈指数膨胀的状态空间为代价的。高速可扩展的正则表达式匹配的终极目标就是实现像DFA一样的高匹配速度,即每匹配一个输入字符只需一次存储访问,并且实现像NFA一样的低存储空间,即所需存储空间随正则表达式规则集呈线性增长。因为三态内容可寻址存储器(ternary content addressable memory, TCAM)具有独特的并行查找、三态存储与模糊匹配的能力,最近研究者们提出了基于TCAM的DFA实现技术。然而,这些方法所需的TCAM条目数仍然高于呈指数增长的DFA状态数,因此其所需的存储空间仍然过于庞大。本文提出一种基于TCAM的DFA压缩技术,该技术每处理一个输入字符仅需一次简单的TCAM查询,并且将所需的TCAM条目数降低到了DFA状态数以下。本文通过发现和利用NFA与DFA之间存在的结构联系,识别出源自相同NFA状态的DFA状态,这些DFA状态实际上是相同NFA状态在DFA中不同的副本结构。本文为DFA状态设计合适的TCAM编码和TCAM条目压缩算法,得以有效地将DFA中的这些相似的副本结构进行压缩。基于真实规则集的实验结果表明,本文方法所使用的TCAM条目数最多比DFA状态数小两个数量级。在DFA实现方法之外,本文又提出首个基于TCAM的NFA实现方法,通过合适的TCAM编码,本文的NFA实现方法和DFA实现方法一样,每处理一个字符只需一次TCAM查找。NFA运行时,并非所有的状态都会同时活跃,通过将同时活跃的NFA状态划分到不同分组中进行编码,使得可以用较少的比特数表示一个NFA活跃状态集合。基于NFA活跃状态集的编码和相应的TCAM条目压缩算法,本文的NFA实现方法既具备和DFA完全一样的运行速度,同时所需存储空间又接近与正则表达式规则集大小呈线性增长的NFA大小。基于真实规则集的实验结果表明,相比基于TCAM的DFA实现方法,本文的NFA实现方法能将存储空间和匹配速度均各自减少和提高一个数量级。此外,本文还设计出一种快速的DFA构造算法,以打破基于DFA的正则表达式匹配方法的一个瓶颈——DFA方法都需要预先从NFA构造一个与之等价的DFA。本文通过深入探索自动机内在运行特性——NFA状态间活跃关系和NFA中导致DFA空间膨胀的因素,设计了一种NFA状态子集的编码方法和查询方法,减少了DFA构造过程中状态子集的查询代价。实验结果表明,与传统的子集构造算法相比,本文的方法减少了88.33%~93.57%的DFA构造时间。
其他文献
作为近年来刚刚提出的一种新型光谱成像技术,计算光谱成像技术在传统色散型光谱成像技术的基础上,通过在光路中引入适当的编码模板完成目标数据立方体的调制和压缩,然后采用
研究了独塔斜拉桥水滴形钢结构主塔在成桥状态下的力学特性。以安徽涡河三桥为工程实例,通过有限元计算分析,得到了水滴形钢结构主塔的位移及应力分布、三角形隔板及凹槽的局
目的:通过检测子宫内膜癌患者、子宫肌瘤患者术前术后及正常人Thl型及Th2型细胞因子表达水平,了解子宫内膜癌患者有无Th1/Th2的偏移,其与病理类型、手术病理分期及分化程度有
龙纹是龙袍上最受关注的纹样,清代龙袍上的龙纹特征明显,容易识别,而且其细节的演变过程呈现一定的规律性。这里分析了清代各个时期龙袍上龙纹眉眼的时代特征,以作为龙袍和龙
随着国内移动互联网的发展和人们生活水平的提高,智能手机用户数量增势强劲,移动手机应用也深入到用户的生活中的方方面面。二维码作为一种移动应用被广泛的下载使用,由于国
<正> 纪检工作如同其他思想政治工作一样,也有其特有的工作艺术. 所谓纪检工作艺术,是指各级纪检组织和纪检干部在日常工作中,为坚定地维护党纪与党规党法的严肃性,认真监督
<正>学习诗歌朗诵是必不可少的环节。要朗诵好一首诗,就必须掌握朗诵技巧。如音调的高低、音量的大小、声音的强弱、速度的快慢。有对比、有起伏、有变化,使整个朗诵犹如一曲
<正>民谣吉他(FolkGuitar)吉他可以分为古典吉他、民谣吉他、弗拉门哥吉他、爵士吉他、夏威夷吉他及电吉他几个大类。民谣吉他可细分为Acousticguitar和Cuttingdown(缺角琴),
背景:镇痛治疗在人工全膝关节置换的恢复过程中发挥着重要作用,是进行有效功能锻炼、提高围术期生活质量的保证.目的:评价人工全膝关节置换围术期联合应用氨酚曲马多和静脉自控
无线自组织网络是一种不同于传统无线网络的技术,具有更快速、更高效、更便捷等优点;无线自组织网络与其他无线网络一样存在安全性不高的不足之处。本文主要针对无线自组织网