网络数据流的正则表达式匹配技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jyjlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则表达式是一种包含普通字符和通配符的模式串,它具有很灵活的的表达能力,其丰富的语义和强大的表达能力赋予了它对各种特征有效的描述能力,也就是具有这样的能力使得正则表达式匹配技术占据了网络内容过滤分析系统和网络入侵监测系统中的核心地位。随着互联网的快速发展,尤其是移动互联网的崛起,新型网络应用的井喷,网络信息量呈指数级增长,带来了待检测数据量以及正则表达式的规则数目的急增,这对正则表达式匹配技术的匹配性能提出了巨大的挑战。国内外的研究者目前对正则表达式匹配技术的研究工作主要集中在将其转化为自动机进行匹配时的匹配效率和空间存储两方面。本文选择正则表达式匹配算法的匹配效率作为研究方向进行了一系列的研究,主要的研究工作可以分为以下的两个部分:研究了空间高效,时间低效的非确定型自动机(NFA)匹配算法,对基于Glushkov构造方法的NFA进行改进,提出了基于激活状态过滤的正则表达式匹配算法,通过多加载一个待匹配字符进入自动机从而降低激活状态集的大小,减少验证次数的方式来提升基于Glushkov NFA的正则表达式匹配算法的匹配效率。研究了正则表达式的结构以及实际互联网中目标数据的分布情况和基于后缀搜索的字符串匹配算法,提出了基于预检的正则表达式匹配算法。因为实际互联网数据中目标数据只占有很少的比例,很多都是不相关数据,原始的正则表达式匹配算法依次对待匹配数据全部进行匹配从而降低了匹配的效率。本文提出的算法通过从正则表达式中提取确定字符串,使用具有跳跃特性的基于后缀搜索的字符串匹配算法在待匹配数据中查找可疑数据,然后再进行验证。由于查找可疑数据的过程中过滤了很多不相关数据,只将占很少比例的可疑数据加载到自动机中验证,因此,算法的效率得到很大的提升。综上所述,本文在研究和总结现有的正则表达式匹配算法的基础上,重点对正则表达式匹配算法的匹配效率进行研究,提出优化方案,并且通过实验来验证算法的可行性,最后本文还展望了正则表达式匹配算法的未来发展趋势。
其他文献
近年来,尽管国际国内社会出台了多种法规制度对上市公司的财务报告和盈余管理加强治理,但总是有不法企业寻找法规制度漏洞,特别是利用财务报表中的真实盈余管理对企业的财务报告和经营活动进行不正当的调整和运作,误导外部信息使用者。我国上市公司财务丑闻不断,仅2018年,证监会就处罚了信息披露违法类案件56起。2019年更是爆出了骇人听闻的“两康财务事件”,康得新虚增利润119.21亿元,康美药业300亿级别
随着互联网技术的发展,新闻的生产关系、传播方式发生了巨大变化。报纸、广播等传统媒体逐渐被新媒体取代。资讯类APP具有内容多样性、阅读便捷性、传播快捷性等优势,成为受众阅读新闻的首要选择。在市场竞争日益激烈的情况下,资讯类APP的新闻推送服务占据着越来越重要的地位。一方面,新闻推送能唤醒沉睡用户,提升产品活跃度,塑造客户端品牌形象;另一方面,新闻推送可以满足用户的个性化需求,提供良好的用户体验。但是
移动互联网的迅猛发展给当前应用带来了动辄千万的用户,规模巨大的用户数量产生了海量的数据。为了保证用户体验,需要极大提高海量数据的存取速度。尤其是在故障频发的情况下
回旋管在毫米和亚毫米波段振荡和放大上具有优良性能,这使得它在通信、雷达、高功率微毫米波、电子战、受控热核聚变、新型材料及高能物理等领域得到了广泛的应用,并开辟了广
经历了全球金融危机与欧债危机的洗礼,在欧元区经济复苏的漫漫长路上欧央行一直没有停止过政策方面的尝试与创新。在这个过程当中维持欧元区物价的稳定,防范一度处于萌芽中的
1,2-二醇因其良好的溶解性、杀菌性和保湿性等特点,广泛应用于精细化工和医药领域,同时也是重要的化工原料。近年来,1,2-二醇的需求不断增加,因此对其合成工艺的研究以及优化具有实际意义。首先,利用壳聚糖大分子上的活性氨基与1,3-丙磺酸内酯反应,将磺酸基负载到壳聚糖高分子上,制备了磺化壳聚糖催化剂;其次,采用吡啶/N-甲基咪唑与1,3-丙磺酸内酯反应,合成相应的磺酸内盐,再与等比例的无机酸反应制得
为了支持容量可扩展和高并发I/O等存储需求,集群存储方案被提出并不断被企业采用,现已成为一种行之有效的存储方式。然而,集群存储设计者需要考虑可靠性和安全性问题,一方面,
本论文首先利用HisTrap~TM HP亲和层析和HiTrap DEAE FF离子交换层析对E coli BL21(DE3)-lipA/lip B抑菌株所产生的重组伯克霍尔德菌ZYB002脂肪酶LipA进行了纯化;利用比色法
分布式文件系统以其可靠性高、容量大与扩展性强的优势,成为当前海量数据存储的主流选择。在大量分布式文件系统的应用场景中,读操作都占有较高的比例。此外,相对于写操作,读
我国自改革开放以来,强调以发展经济为中心,导致了当前社会生态环境与经济发展之间矛盾日益激化,亟待完善的环境公益诉讼制度来缓解经济发展与环境保护之间的矛盾,以求达到环