正则表达式匹配算法并行化技术研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:buzi899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则表达式匹配是网络内容分析与过滤系统中的核心关键技术。随着互联网技术的快速发展,新型网络应用和协议不断涌现,待检测数据量急遽增长,检测规则数量庞大且语法日益复杂,这对正则表达式匹配技术在匹配速度和存储空间方面提出了双重挑战。新型并行化硬件发展迅速,但由于传统的正则表达式匹配技术基于串行处理,无法直接利用并行硬件提升正则表达式匹配的性能。本文对正则表达式匹配算法的并行化技术展开研究,具体研究内容包括:DFA构建并行加速技术、DFA并行分解技术和DFA最小化并行加速技术。本文的主要研究成果总结如下:(1)DFA并行构建算法:本文在沿用k-Reduction算法对DFA的组织方法的基础上,研究经典的子集构造法的多线程并行加速技术。本文提出两种DFA并行构建算法:基于并行读写的DFA构建算法PRW通过对状态映射表的加锁和解锁操作,保证公共数据的多线程安全性,该算法的DFA构建速度最快达到k-Reduction算法的1.716倍;基于多线程和单线程循环交替的DFA构建算法SMA从状态映射表读取频率显著高于写入频率这一现象入手,拆分状态映射表的读写权限,该算法的DFA构建速度最快达到k-Reduction算法的2.714倍。(2)DFA并行分解算法:本文从字符集分解的角度出发,提出DFA并行分解算法PDFA,该算法将大字符集上的DFA分解为多个小字符集上的DFA,用小字符集上的DFA模拟原DFA的状态转移。在多核并行加速情况下,PDFA算法的状态转移时间复杂度为O(1)。实验结果显示,PDFA算法能显著压缩绝大多数DFA的存储空间,空间压缩率优于相关DFA空间压缩算法。(3)DFA并行最小化算法:本文针对经典的DFA最小化算法Hopcroft进行多线程并行加速研究,提出基于多线程并行的DFA最小化算法P-Hopcroft,该算法通过划分等价类的分割权限,实现对Hopcroft算法的并行加速。实验结果显示,最优情况下,P-Hopcroft算法的DFA最小化速度为原始Hopcroft算法的2.236倍。
其他文献
皮影戏是我国传统傀儡艺术中的一个代表,其造型设计与表现形式都具有我国独特的文化内涵,被视为国粹。由于传统皮影戏表演需要在特定的舞台表演,并依赖于表演艺人的水平,因此近些
蛋白质相互作用(Protein-Protein Interaction,PPI)网络是指一个生命有机体内所有蛋白质之间相互作用组成的生物分子关系网络。利用计算方法进行PPI网络功能模块检测是后基因
随着云计算的迅猛发展和IT服务的专业化,单个云服务不能很好的满足用户多样化的个性需求,因而云服务组合问题得到广泛的关注。在云服务组合过程中,由于云服务组件经常具有不
翻译检索被认为是机器翻译与信息检索技术的结合。机器翻译讨论如何用计算机将一种自然语言翻译为另一种自然语言。信息检索返回与用户查询相关的文档信息。传统翻译检索方法
自2006年被首次提出以来,云计算已经成为IT行业中的持续性热点,它具有很高的商业价值。由谷歌提出的MapReduce云计算编程模型针对大数据集实现自动的并行和分布式计算,性能高且
自SaaS(Software as a service,软件即服务)的概念提出以来,国内外涌现出大量基于SaaS模式的通用管理软件产品及其服务,并占据一定的中小企业市场。站在用户的角度来说,基于S
四足机器人因具有较高的动态性能和较强的环境适应能力而备受关注。作为一种强耦合非线性复杂动力学系统,四足机器人涉及学科知识多,模型结构复杂,尚有许多基础理论与关键技术有
随着计算机在国民经济和国防建设各个领域的广泛应用,作为信息系统智能载体的计算机软件的安全性变得尤为重要,软件安全漏洞已经成为信息安全风险的主要根源之一。由于软件安全
快速发展的网络技术和计算机性能已经能满足对海量图像的精细化处理的需求。这在基于图像的搜索引擎、视频识别、机器人等重要的应用中都有体现。在这些应用中,图像的匹配和
移动云计算利用云计算按需服务和可伸缩性的特点,解除智能终端CPU、内存、电量等资源的束缚。随之智能终端游戏、微博、地图、位置服务、搜索等应用日益普及,智能终端以其广泛