相似字符串查找算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:erbin517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似字符串查找在现实生活中的应用非常广泛,例如相似网页检测、数据清洗、电商网站的推荐功能、蛋白质功能预测等。相似字符串查找多是用一个给定的相似性函数来判断两个字符串是否相似。相似性函数有多种,例如汉明距离、编辑距离、余弦度量以及杰卡德度量等,其中使用较为广泛的为编辑距离。目前,基于相似性函数的相似字符串查找的研究可分为三类,即基于阈值的相似字符串查找、top-k相似字符串查找和相似字符串连接。然而随着用户需求的不断变化,基于相似性函数的相似字符串查找已不能很好地满足用户需求,于是带通配符的字符串查找逐渐被研究者们重视起来。本文主要研究了三种类型的相似字符串查找问题,即基于阈值的相似字符串查找、top-k相似字符串查找及带通配符的字符串查找。在基于阈值的相似字符串查找问题方面,目前处理该类问题的算法多是基于过滤——验证框架的。本文基于该框架提出了 PBsearch算法,并且分别在过滤和验证阶段对该算法进行了优化。在过滤阶段使用了长度过滤、数量过滤和位置过滤,并且首次加入One-Off条件过滤掉大量的无效匹配;在验证阶段提出了一种新的验证算法——MultiThreshold算法,有效地减少了计算编辑距离的次数。在top-k相似字符串查找问题方面,提出了两种基于分割思想的算法——Pb-topk算法和PbCount-topk算法。其中,Pb-topk算法采用差值递增的策略,减少了需要处理的字符串数目;PbCount-topk算法采用匹配数目划分的策略,进一步缩小了候选集的规模。在带通配符的字符串查找问题方面,研究了带"?"和"*"两种通配符的字符串查找问题。虽然Patricia trie索引结构具有高效的前缀共享性,然而在查询效率上仍有待提高。本文提出了基于Patricia trie结构的改进结构——w-trie结构,提高了 Patriciatrie结构的查询效率。该结构在内节点处多了一个通配符分支,给定一个通配符约束k,w-trie每一个内节点消耗一个通配符,直到从根节点到当前节点的分支上已经满足通配符约束k。最后基于该结构提出了带通配符的字符串查找算法,并在查找过程中加入长度过滤策略过滤掉部分一定不满足通配符约束的字符串,进一步提高了查找效率。最后,通过在三个真实数据集上的实验结果,分别验证了本文提出的算法在解决基于阈值的相似字符串查找、top-k相似字符串查找以及带通配符的字符串查找这三类问题上的高效性。
其他文献
学位
转码(Transcoding)是一种将已经编码过的信号转换为另一种信号的技术,在视频上,视频转码的主要应用包括码率控制,帧率控制,分辨率调整以及视频格式转换等。然而,传统的视频转码方
云计算是一种流行的基于互联网的计算方式。它计算互联网上的硬件资源以及软件资源,并将这两种资源虚拟化成服务交付给个人用户和企业。而云计算系统就是建立在此基础上,它由连
随着多媒体技术的发展,数字媒体的应用也越来越广泛,而伴随着这些应用的同时,数字产品的盗用、篡改等侵权问题也一并出现。数字水印作为一种技术手段,可以有效的保护数字产品的版
许多患者都患有神经症状或神经退行性疾病,扰乱了大脑至脊髓及其最终目标即肌肉的正常信息流,进而影响人的行动意图。基于脑电的脑—机接口(Brain-Computer Interface, BCI)作为
输出的路径集合在所有的可能解中具有最小的长度之和。现有的分布式寻找连接s和t的多条不相交路径的方法既不能保证答案正确性也不能保证结果最优性。虽然有一些集中式方法可
随着互联网技术和多媒体信息技术的飞速发展,计算机已经走进了千家万户。互联网使信息交换的形式多种多样同时不受空间限制,使得数字多媒体信息在网上传播越来越便捷,给人们
齿轮形状复杂,测量参数较多,使得齿轮测量一直成为几何测量中的难点。传统的齿轮参数测量方法,往往带有测量人员的主观误差,且存在劳动强度大、检测效率低等一系列缺点,尤其是模数
德国Wille教授于1982年首次提出了形式概念分析理论,它是一种能够从形式背景中进行数据分析和规则提取的工具。对于形式概念分析理论,现有的研究主要集中在形式背景知识的获
WSN的应用中,无论是硬件设计还是软件层面,都将节省能量放在研究工作的第一位。路由机制作为WSN的关键技术,必须将降低能量开销和延长网络生存期放在设计工作的首位。本文选取PE