基于文本片段的多模式部分匹配算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xcn1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络带宽越来越大,网络应用越来越复杂,网络安全问题也日益严重。在骨干网进行安全内容检测,作为国家信息安全的重要一环变得越来越重要。骨干网的主要功能需求是及时高效的转发报文,基于IP层的字符串多模匹配仍然是骨干网上内容检测的重要手段。   基于有限状态自动机的Aho-Corasick算法(简称AC算法)是最经典最基础的多模匹配算法。在基于IP层进行内容检测时,先后到达检测点的IP包形成了文本片断序列。传统的AC算法没有考虑跨片断文本的检查,通常会漏报跨越文本片断的特征字符串。   针对AC算法等精确字符串匹配方法在检测文本片断序列时产生漏报的问题,本文完成以下研究工作:   (1)提出了“部分匹配”方法,即仅要求在文本片断的首部或尾部匹配上特征字符串的后缀或前缀。即使特征字符串跨越文本片断,这一方法也可以确保在某一个文本片断中“部分”匹配上该特征字符串的一半或一半以上,从而有效降低了在检测文本片断序列时的漏报率。   (2)针对基于有限状态自动机的匹配算法状态空间爆炸问题,本文采取了两个步骤来解决该问题:首先,在模式集编译时加入模式及其模式的逆;其次,文本的扫描过程不但正向扫描整个文本片断,还逆向扫描文本的前m个字节(m为最大模式长度)。从而将自动机状态数控制在AC算法的常数倍以内。   (3)设计并实现了基于“部分匹配”的Partial-AC算法;并通过实验验证:Partail-AC算法的空间复杂度小于AC算法的2倍,时间复杂度是其(1+m/n)倍(n是平均文本片断大小);当m
其他文献
本论文基于深度学习的方法对问答领域的两个重要的问题进行了相关的探索与研究。第一个研究问题是问题意图层次分类,对于类别为层次结构的问题意图,设计模型充分利用类别间的层
传统的数据管理模式下,用户自己购买硬件软件,自己管理数据。在经济全球化的今天,一方面,用户的数据量急剧增长;另一方面,用户对数据管理的要求越来越高。这使得传统的数据管理模
研究表明,数字集成电路(IC: Integrated Circuit)测试模式下的功耗可能达到正常功能模式下功耗的两倍以上。因此,如何有效降低数字IC的测试功耗已经成为近年来学术界与工业界普
随着软件技术的发展,静态开发模式已经不能满足需求。以组件的形式开发出来的软件具有结构清晰、易于定制、便于动态扩展等特点,在Linux平台和手持移动设备上已经得到了广泛的
数据挖掘是近年来迅速发展的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息
在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要
随着互联网应用和用户的飞速增加,猛增的域名查询量对根服务器和CN顶级域名(TLD)服务器造成了越来越大的负载压力。从降低根服务器和CN TLD服务器的负载、提高域名解析的性能
面向对象分析与设计系统在当今软件企业中有着非常广泛的应用,它有目的地把系统分解为模块策略,并将设计决策与客观世界的认识相匹配,为复杂度越来越高、规模越来越大的软件系统
随着计算机应用的日益普及和深入,软件系统的规模和复杂性不断增大,研制可信软件技术以提高软件系统的质量已经成为十分重要和迫切的需求。   软件开发生命周期可以分为需求
支持向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,具有简洁的数学形式、标准快捷的