千万模式集高效匹配算法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:babytoto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配一直都是计算机科学的研究热点和难点。在信息安全领域中,关键字规模变大、互联网流量的增加,使得字符串匹配算法成为网络安全系统的性能瓶颈。本论文首先综述了三种经典的多模式精确匹配算法,深入总结了这三种算法的优缺点。然后,在深入分析了现有规则集合的基础上,总结出了千万模式集合的特点。其次,针对千万模式集合匹配的需求,设计了基于AVL树的AC优化算法ACVL和基于分类思想的多模匹配算法CDWH两种算法。ACVL算法是利用AVL树来优化AC算法的内存占用情况,使AC算法可以支持千万模式集合的要求,同时还给出了ACVL算法的优化方面,使用规则去重、状态压缩、路径压缩三种方法来进一步压缩内存,实验表明ACVL算法在加载千万模式集合时使用内存仅为2.5G。CDWH算法是利用分类的思想,将模式集合分为长字符串模式集合和短字符串模式集合,然后分别采用DAT算法和WM算法进行匹配。CDWH算法还对DAT算法进行了内存压缩和缩短初始化时间的优化,并对WM算法进行了Hash冲突集减小和加快完全匹配速度的优化。最后,本论文分别实现了ACVL算法和CDWH算法,以可扩展的方式支持真实系统的运行,并进行了性能测试。离线测试分别测试算法的正确性,以及算法在不同规则模式集下的性能表现,包括初始化时间、占用内存量和扫描时间等。在线测试则测试了ACVL算法和CDWH算法的扫描速度。然后比较了ACVL算法和CDWH算法的测试结果,结果表明CDWH算法明显优于ACVL算法,它可以为系统带来21.4%的性能提升。
其他文献
随着科学技术的不断进步,脑机交互技术因为其巨大的理论研究价值和广阔的实际应用前景,近些年越来越受到了人们的关注,逐渐成为目前计算机科学与生物工程交叉领域中的一个研
学位
随着手机操作系统的出现,手机在出厂后仍可以安装第三方程序,这为病毒的传播创造了条件。从2004年第一个手机病毒出现至今,手机病毒种类持续增加,现已传播至全球范围。手机病毒的
图编程方式是软件开发模式的一种新方法,能充分体现软件复用技术,具有开发效率高、专业要求低、代码质量高等优点,可被广泛应用到各个领域,是未来软件发展的方向。目前,图编
传统的PLC(可编程序控制器)多以实现逻辑控制为主,但对于复杂的过程控制无能为力,并且实现起来比较繁琐。PLC不适合用于过程控制的主要阻碍因素是模拟量编程过于复杂。现代工业
随着互联网的急速发展和关系数据库的广泛应用,人们越来越认识到如果能将信息检索技术和数据库技术结合起来,将会带来更好的用户体验。本文在基于模式图的数据库关键字检索的
为了实现汽油机燃油喷射和点火的精确控制、达到节能减排、优化发动机整体性能的目的,论文对eTPU(enhanced Time Processing Unit)在汽油机ECU中的应用进行了深入详细的研究。
代数方法的动态门结构表示法,可通过将复杂子树中的 FDEP门转换为基本事件的割集给出子树的解。  航天复杂系统中共因事件和输入次序交互等动态事件给可靠性研究带来了挑战
在信息大爆炸的时代,分布式系统是现今计算科学的主要研究重点之一。随着用户及信息数据的爆炸式增长,系统在发生着剧烈的变化,新的问题也显现出来。各节点各自的行为、链路失效
Web系统传输性能是B/S结构应用系统开发过程中不可忽视问题,近年来,随着互联网的快速发展,尤其是无线通信技术的迅速发展,网络接入技术变得多样化,人们对通过互联网访问Web系