【摘 要】
:
正则表达式是一种能够提供复杂查询能力的技术,其通过特定的语法结构来描述出一类文本的共同特征。其强大的表达能力和简洁的语法,使得其在各个领域都被广泛的应用。例如,文
论文部分内容阅读
正则表达式是一种能够提供复杂查询能力的技术,其通过特定的语法结构来描述出一类文本的共同特征。其强大的表达能力和简洁的语法,使得其在各个领域都被广泛的应用。例如,文本编辑,基因序列匹配,还有shell命令。本文主要研究的是如何有效的在长文本上进行正则表达式查询。一种比较简单的方法来实现正则表达式查询就是构造正则表达式的自动机,对于字符串中的每一个位置,通过自动机来判断从该位置开始的子串是否可以被该自动机所接受。但是必须注意到验证过程的计算代价是非常大的。这种简单方法的主要限制在于需要重复做这种验证过程很多次。有许多方法提出了改进的地方来加速匹配过程,大致都是先确定出字符串上的一些候选区间,然后一个接一个的验证这些区间。这些方法从正则表达式中提取出一些子串来确定候选区间出现的位置。每一个候选区间都将用一个或者多个自动机来验证。即使这些方法可以减少许多验证过程,但是当正向因子产生了很多候选区间的时候这些方法的效率将变得非常低,尤其当文本非常长的时候更加明显。本文提出了一种有效的技术来提高正则表达式匹配的性能,通过利用反向因子来过滤掉大多数的候选区间,所谓反向因子是指一定不会出现在答案当中的一些子串。反向因子不仅可以用于过滤掉候选区间,还可以提前结束自动机的验证。此外,该技术的一个主要优点是它可以集成到现有的一些技术当中,从而能大幅度的提高现有技术的性能。本文提出了一种通过利用反向因子来过滤掉候选区间的算法,然后利用位并行技术来处理反向因子来进一步提高了算法的性能。用位向量表示子串在文本中的出现位置,然后通过位向量间的位操作来得到候选区间,基于位操作的算法在性能上有了大幅度的提高。本文还分析了大量的反向因子,总结出了反向因子的一些性质,并且基于这些性质提出了一种构造高质量反向因子的算法。最后,在真实的数据集上进行了全面的实验来研究这项技术,数据集包括基因序列,蛋白质序列,还有英文文档。实验表明,当现有一些技术应用了反向因子之后能取得性能上显著的提高。
其他文献
随着互联网的发展,计算机犯罪活动越来越猖獗,防火墙和IDS 在一定程度遏制了黑客入侵,但是高明的入侵者防不胜防,作为主动防御技术的计算机取证技术的出现弥补了传统网络安全
随着计算机技术的迅速发展,企业越来越依赖于计算机系统和网络技术,需要企业服务器为客户连续的提供服务。高可用性(HighAvailability,HA)越来越受到人们的重视。尤其近年来,全球
在本文中,我们对于基因表达谱数据的特点进行了研究,根据基因表达谱数据的特点提出了表达谱数据噪声过滤、数值规范化两个方法;然后对于k-means聚类方法在表达谱数据上的应用
量的与日俱增为人们带来了信息共享的快乐,同时也带来了“信息迷航”和“知识匮乏”等问题。人们希望快速地得到自己需要的并具有个性的信息。对搜索引擎的检索结果进行个性化
在税务系统实现数据仓库并以此为数据基础,实现联机分析和基于历史数据的数据挖掘系统具有重要和广泛的应用前景,但目前这方面的应用还在初步阶段。本文以税收征管业务为背景,针
随着遥感技术快速发展,遥感图像数据已成为空间信息的重要数据源之一,卫星遥感图像高速实时传输已经成为当前研究的热点问题,并伴随着巨大的市场需求。本文针对卫星上遥感图像数据实时高速压缩、传输的需求,在Visual C++环境下,建立了对卫星遥感图像进行压缩、传输、解压、接收、显示等过程进行仿真研究的仿真系统。该系统主要使用JPEG2000 算法进行了仿真分析,在仿真系统的设计实现中采用图像分块压缩等关
随着机动车数量的不断增加,“停车难”的问题也日益突出,尤其是在那些大城市中,这个问题更是令大多数司机非常苦恼。在城市中,“停车难”不仅表现为车位难找,更表现为车位狭
本文在结合了电子商务系统的特性和纯P2P信任机制研究的三条限制条件的基础上,使用数里统计中最大似然估计、概率论中的数学期望等方法,构建了一个以数理统计、随机过程为理
本文首先研究了P2P网络信任管理中的信任获取问题。从模拟人的行为的角度出发,在Dempster-Shafer理论框架内,提出了一种基于证据理论获取信任评价的方法,并设计了仿真实验进
随着Internet革命性的发展,电信网络组网方式发生了巨大变化,网络规模日益扩张,网元因业务的多样化而愈加复杂化。构建一个综合网络管理平台,使其包容不同的网络和设备,从而