基于改进编辑距离的字符串相似算法研究

被引量 : 25次 | 上传用户:jinlu2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊查询技术解决了用户检索网络信息的困难,其核心思想主要是编辑距离算法。编辑距离是A.Leveshtein于1966年提出的,用于校验字符串或文本之间的相似程度,或视为将一个字符串通过原子变化为另一个字符串所需要的最小代价,其在模糊查询领域有着广泛的应用。编辑距离算法在求解两个字符串的相似问题时只考虑了编辑操作次数,而没有考虑字符串之间的公共子串对相似度的影响;在求解回溯路径时,并不能完全匹配出全部字符串变化步骤的可能性。针对这些问题,提出了基于改进编辑距离的字符串相似度求解算法,其中改进了字符串相似度度量公式及Levenshtein矩阵计算方法。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串,借鉴线性空间求NAKATSU算法求解全部回溯路径的思想,定义适合新LD矩阵求全部回溯路径的算法。实验采用智能ABC作为词典库,选取一个单词作为源串,一组与源串不同程度相似的单词作为目标串,把新相似度度量公式与现有的字符串相似度计算方法进行比较。基于动态规划的思想,在计算矩阵每一行时,会把每一行的最小值和文章定义的搜索强度值做比较,如果不满足一定条件则提前跳出矩阵,在某些特定情况下,该需求是有必要的。新公式与检索工具Lucene工具包的FuzzyQuery类做比较,减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明改进的算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。
其他文献
目的:维生素B12治疗三叉神经痛20例疗效观察。方法:采用维生素B12注射液1000μg,三叉神经周围支封闭,每日1次,8次~14次为1个疗程。结果:治愈15例,占75%,好转3例,占15%,无效2例,占10%。对治愈
党的十八大提出了坚定中国特色社会主义的道路自信、理论自信、制度自信的政治要求,并要求将“三个自信”教育融入国民教育和精神文明建设全过程。“三个自信”教育与思想政治
采用高频炉快速热解装置研究油浆的高温快速热解特性,考察了热解温度、氮气流量对气固相产物的组成和产率的影响。温度是影响气相产物产率的关键因素,气相产物主要为甲烷、氢
幼儿园教育质量监控系统是提高幼儿园教育质量的重要保障,但是由于历史、文化、经济等原因,我国关于幼儿园教育质量监控的研究和实践探索较少,导致目前我国幼儿园教育质量监控系
21世纪,我们正身处一个被网络深刻影响的时代,并且这种影响将继续扩大,变革性地改变我们的生活方式,学习方式,工作方式,思维方式等。我们永远都不应该忽视语言的力量,网络语言作为语
目的:中西医结合疗法治疗毛细支气管炎的疗效。方法:选取2010月1月—2012年1月我院收治的80例毛细支气管炎的患儿为研究对象,随机分为治疗组和对照组,每组40例,对照组给予抗
企业文化是指企业全体职工在生产经营中,共同特有的理想信念、价值取向、道德标准及行为规范。企业文化植根于企业员工的内心,形成企业特有的职业伦理和共识,使员工真正理解
近年来,国家对于教师教育重视程度的逐步提升。教育实习是教师教育课程的重要组成部分,担负着引领师范生从学生到教师角色转变的关键性责任,对于提高教师专业素质、促进教师专业
H网络科技公司是一家服务于智能交通行业的IT企业,其业务模式以工程项目服务为主。近年来,随着工程业务的增多以及项目规模的扩大,H网络科技公司工程项目管理模式面临着严峻的挑
发展南方冬作区马铃薯对保障我国粮食安全和增加农民收入意义重大。2000~2008年,南方冬作区马铃薯播种面积和产量均稳定增长,但8省份趋势有所不同,广西发展尤为迅速。南方冬作