基于后缀数组的近似字符串匹配

被引量 : 0次 | 上传用户:lewy540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配问题是计算机科学研究中最基础的问题之一。早期的研究多集中于精确字符串匹配领域,就精确字符串匹配提出了许多单模式和多模式匹配算法。然而在信息检索、模式识别和计算生物学等一些实际应用中有时候更需要查找的是近似匹配字符串。因此研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。本文首先介绍了近似字符串匹配算法的研究现状和近似字符串的相关理论和主要研究方法—动态规划、自动机、位并行、过滤等技术。结合后缀数组这一索引结构,本文提出了基于后缀数组的近似字符串匹配算法,即IS_DP算法。算法使用后缀数组加快在动态规划矩阵上的迭代速度,从而达到O(kn)的时间复杂度和空间复杂度。用后缀数组构造算法可以预先排序文本串后缀,求解后缀数组中相邻后缀的最长公共前缀,从而可以在O(1)时间内计算出任意两个后缀串的最长共有前缀长度。本文算法是对原有的基于动态规划的近似字符串匹配算法的改进,通过加速矩阵对角线上扩展的方式降低了构造动态规划矩阵的时间消耗,进而在O(kn)时间内查找出文本中所有的近似匹配字符串,与一些在后缀树上查找近似字符串匹配的算法相比较,本文算法采用后缀数组结构可以节省约5n的存储空间。
其他文献
本研究以农业生产为主的A县为例,调查政府在农村学前教育责任承当方面的现状,分析其中存在的问题,并试图剖析问题产生的原因、提出可能解决问题的建议。A县政府在农村学前教
近20年来,有关教师专业认同的研究已逐渐成为教师专业发展相关研究中的重要领域,有着丰富的研究成果。从概念、研究方法、研究内容和研究目的等角度对教师专业认同过程的相关
[目的]本研究旨在综合运用定性和定量研究方法,建立一套适合于我国三级公立医院实际情况、具有较高信度、效度,并易于实际应用和推广的三级公立医院评价指标体系,为卫生行政
痴呆是一组以认知功能损害为核心症状的综合征,患者通常出现记忆、思维、定向、理解、计算、语言等多种高级皮层功能的渐进性损害,这些损害可不同程度地干扰患者的工作、日常生
背景:随着社会的发展和人们生活水平的提高、胆固醇摄入的增加,高脂血症及动脉粥样硬化疾病的发病率逐年上升。作为动脉粥样硬化的主要疾病、目前冠心病已成为我国人群死亡的
本文以本草、方书等中医文献为依据,主要对古代中医用黄连治疗消渴病及其炮制方法、配伍应用和证的选择等进行了探讨,希望对应用黄连治疗该病有所帮助,对黄连有关药理、成分
有效市场假说是对金融市场效率进行阐述的基础理论,而20世纪90年代‘动量效应”的发现对这一假说构成了直接的挑战。对动量效应这一“市场异象”进行研究能够帮助我们深入理
近年来,随着直肠癌新辅助放化疗的不断发展以及取得的良好疗效,越来越受到临床医师们的重视,但对于直肠癌新辅助化疗的疗效评价一直缺乏有效而准确的方法及手段。影像学检查
范小青凭借对生活的细致关注,总是走在生活的最前沿,去揭示生活的底蕴、人生的真实和人性的力量,这些尤其体现在她的短篇小说创作中。她的短篇小说犹如社会档案,各种社会现实和生
关注人民的苦难,追求全人类的幸福是马克思主义哲学唯一的终极关怀。幸福作为一种有着客观内容的主观感受,受主客观条件的影响。不同群体、不同职业、不同时代和不同生活境遇的