基于局部过滤的字符串近似匹配算法和优化技术

来源 :东北大学 | 被引量 : 1次 | 上传用户:duzhiwei1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的发展,社会中各行各业都离不开计算机,同时计算机可以给人们带来很大的方便和创新。字符串在计算机领域中是一种重要且基础的存储结构。现如今大量的数据都是以字符串这种数据结构的形式存放的。如何在给定的大规模字符串集合中高效率地找到与用户输入相匹配的字符串一直是个重要的研究问题。尤其是实现对字符串的近似匹配具有重要的现实意义和技术挑战。文本着重研究基于编辑距离的近似字符串匹配问题,研究高效率的匹配算法。本文首先综述了经典的支持编辑距离的近似字符串匹配技术,并分析出现有的方法都采用公共匹配因子进行过滤的思想。基于此,提出了局部过滤的匹配思想,即两个不相似的字符串一定由若干个不相似的片段组成。为了过滤掉不相似的字符串对,需要找到一些不相似的片段。本文首先定义局部距离的概念以用来度量两个字符串之间的局部不相似这个特性。根据局部距离的定义提出了局部距离的累加定理来进行过滤。提出了带有位置约束的局部过滤以提高算法的过滤能力。本文还设计了一种索引结构BitTree来管理带有位置约束的局部距离。根据这个索引结构设计两种算法对字符串集合中的字符串进行过滤。另外,局部距离同样可以在验证阶段使用。由于BitTree索引结构存储空间很大,本文提出了新的索引结构PBitTree索引和CoreBitmap索引来减少空间复杂度,同时设计出一种局部过滤的估计算法来进行字符串的过滤。本文在三个真实的数据集上和如今三个主流的算法进行实验。实验结果显示局部过滤方法的运行时间,过滤能力和索引大小都要好于其余三个算法。并且本文提出的估计算法也在运行时间和过滤能力有很好的效果。
其他文献
网站通过多 Agent 协同合作为用户提供智能化、个性化的服务,它能够满足用户多样化的需求,因此在实践中得到了广泛的应用。本文运用基于工作流的多 Agent 调度技术,提高了网站的
随着web2.0的发展,互联网迎来了一个数据爆炸的时代,搜索引擎的关键字搜索已经不能满足用户的个性化需求,取而代之的是推荐引擎的出现。推荐引擎带给了用户更为个性化的内容,用户
本论文研究内容是国家某预研课题的一部分,目的是研究RISC微处理器的体系结构和方法,设计兼容于PowerPC指令集的32位嵌入式微处理器。做为一款百万门级的处理器“龙腾R2”,其测
图纸识别技术是近些年计算机应用领域的热点之一。特别在建筑领域中存在着大量的工程图纸,对这些图纸若实现计算机的自动识别,就能够完成对图纸上建筑工程量信息和数据的自动计
由于本体在表述语义方面的优势,越来越多的本体被开发出来,那么如何将本体集成就成为一个急需解决的问题,在集成过程中一个非常重要的步骤就是如何找到源本体和目标本体的映射关
最近几年,对等计算(Peer-to-Peer,简称P2P)迅速成为计算机界关注的热门话题之一,P2P模型与传统的C/S模型相比,其优势在于降低了对服务器的依赖和它的分散控制。一些P2P模型甚至不
当代科技革命的主要特征,是以计算机为支持手段进行信息处理。随着计算机的广泛应用,计算机已由过去的数据处理、信息处理发展到现在的知识处理,对语言文字的信息处理。而语言是
无线传感器网络以其易部署、自组织、成本低、自愈能力强等特点,在军事侦查、环境监测、医疗护理、空间探索、灾难救援等领域展现出了广阔的应用前景。节点定位是无线传感器
本文通过对原有船舶综合航行性能预报、评估及优化设计集成系统(SHIDS)的认真分析和研究,总结了其中存在的问题。在系统的功能方面,只是对各种模块进行了简单的堆积,没有一个合
当今Internet技术正将世界各地的丰富信息资源带到我们每一个人面前。随着网络信息的爆炸式增长,人们越来越关心怎样高效、准确地检索出自己想要的信息资源。传统搜索引擎的发