对串匹配技术中的Wu-Manber算法的研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:liuleizishen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配是计算机研究领域中的一个古老、经典而且被广泛研究的课题,是信息检索领域和计算机生物学领域等的关键技术之一。在当今的互联网时代,对匹配算法的需求日新月异,对处理的实时性的需求越来越高。这些都对原有的字符串匹配技术提出了新的挑战,有必要对原字符串匹配技术进行改进和优化。本文主要是对高效的多字符串匹配算法——Wu-Manber算法进行研究。本文针对Wu-Manber算法的散列表HASH的表项:HASH()链表的不足,提出了基于非空公共子后缀模式的处理算法;而后综合前人对Wu-Manber算法的SHIFT表的改进,提出更加高效的字符串匹配算法;进而提出一种在大规模串匹配时对Wu-Manber算法的改进。本文的研究成果具体如下:1.基于非空公共子后缀的Wu-Manber算法的改进:针对Wu-Manber算法在处理公共子后缀模式情况下的不足,本文提出了一种基于非空公共子后缀模式的处理算法。该算法把同一next链表中有非空公共子后缀的模式汇集在一起,进一步减小了next链表的平均长度。在匹配过程中减少了字符比较的次数,从而提高算法的运行效率。本文对搜狗实验室给出的相关文档进行全文检索实验,并和原Wu-Manber算法、前人提出的改进算法进行比较。实验结果表明,本文提出的改进算法有效地减少了匹配过程中字符比较的次数,从而提高匹配的速度和效率。2.对Wu-Manber算法的综合改进:对1中提出的算法进行了改进,在对next链表进行分类的同时把含有非空公共子后缀的结点提到链表的前部;并整合了前人提出的“精确的不良字符转移和弱化的良好后缀转移的改进”方法。新改进的算法充分利用以上两种算法的优点,使匹配过程中字符比较的次数得到了进一步减少。新改进的Wu-Manber匹配算法在实验中取得了更高的效率,比原算法提高到4.6%以上。3.Wu-Manber算法在大规模模式串下的改进:对1提出的算法进行了改进,把原算法中next链表中结点的Same_Subsuffix域分裂成两个子域,使得在大规模模式串的情况下,搜索过程中字符比较的次数进一步减少,新算法的效率比原算法有进一步的提高。实验结果表明,当模式串较少时,新算法效率与原算法相比有一定的损失。而随着模式串的增加,新算法具有更高的效率。因此,新算法比原算法具有更大的适用范围。
其他文献
随着表面组装技术(Surface Mounting Technology, SMT)向更高密度、更小尺寸、更复杂的印刷电路板(Print Circuit Board, PCB)混合技术的纵深发展,在电路板的装配过程中,作为
机动车技术状况良好是车辆行驶安全的基本保证,其安全性能检测是保证车辆技术状况的重要手段。目前,应用现代化的传感技术、计算机及网络通信技术开发集成化的智能系统成为汽
农业信息化是建设社会主义新农村的必由之路。我国在农业信息化建设取得长足进步的同时也出现了一些问题。主要是因为目前我国农村基础设施尚不完善,而且农民普遍还不富裕,购
为了解决软件复用,缩短软件开发时间,降低维护成本和实现程序动态升级,软件设计领域产生了组件化程序设计结构,并且日益成为发展趋势。微软的COM组件对象模型是当今比较成熟
网络管理和分布式技术的发展,以及J2EE技术的广泛应用推动了JMX技术的形成。JMX的全称是Java Management Extensions,由Java CommunityProcess(JCP)制定,为基于Java平台的软件和
由于数据库中存在着大量数据,因此从数据库中发现有用的信息显得十分重要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内外己经取得了许多令人瞩目的
图像插值可以改变图像分辨率,实现图像的缩放显示,是高清数字电视平板显示中的关键技术,具有非常重要的理论和应用价值。ENO(Essentially Non-Oscillatory,基本无振荡)插值方法采
Java语言的面向对象、跨平台、语言级并发支持、安全等特性不仅使它在互联网领域得到广泛应用,也引起了嵌入式领域研究人员的高度重视,Sun公司希望能将Java语言改造成实时系
逆向工程技术是随着计算机技术的发展和成熟以及数据测量技术的进步而迅速发展起来的一门新兴学科与技术。它的出现,改变了原来CAD系统中从图纸到实物的设计模式,为产品的迅
模糊规划是解决带有模糊参数规划问题的一种统一的优化理论,它可以很好的解决数学模型的约束检验和模糊目标不易转化为清晰等价类的问题。到目前为止,用于求解模糊规划问题的