基于编辑距离算法的中文模糊匹配技术在大数据量环境中的应用

被引量 : 0次 | 上传用户:lmwtz0x8u0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
编辑距离算法又称Levenshtein距离,是一种将一个复杂的最优解问题分解成一系列较为简单的最优解问题,再将较为简单的的最优解问题进一步分解,直到可以一眼看出最优解为止的方法。编辑距离算法的应用十分广泛,例如DNA分析、拼字检查、语音识别、抄袭侦测、相似度计算等。本文所要详述的就是该算法的相似度计算应用,也就是本文后面会提到的中文模糊匹配应用。本文主要介绍综合治税信息服务平台收集的24家(地税除外)单位的杂乱无章的原始数据整理成规范可用的数据之后,由于采集的24家单位的数据主键不统一中文名称不一致的问题,提出了采用中文模糊匹配技术来将这些不同单位的名称匹配起来,即与地税数据进行比对即计算汉语的相似度,发布比对结果,促进征管,重点可利用其中比对的异常数据,最终将各个单位的数据利用起来达到综合治税的目标,。本文会从以下几个方面来分步介绍此次应用:中文模糊匹配的基础(分词)、核心(编辑距离算法),中文模糊匹配技术在税务系统中的重要应用。起初采用直接的比对方法结果匹配成功率只有10%-20%,采用基于编辑距离算法的中文模糊匹配技术后匹配成功率高达85%以上,效果显著。
其他文献
按照中组部、国资委的部署及国家电网公司、省电力公司的要求,加强县级供电企业领导班子自身建设,不断增强领导班子的政治意识、大局意识、责任意识和忧患意识,着力提高领导
随着高校教育改革的不断深化,高校音乐档案工作的管理也亟待改革。教学质量和教学水平的提升与档案资源的科学管理密不可分。从高校音乐档案制度、档案管理人员素质、.档案规
本文提出了证券组合投资的多目标区间数线性规划模型,引入了收益———风险偏好参数和优化水平参数。投资者可以根据对风险的喜好程度和金融市场的客观情况,适当估计这两个参
<正>内部控制制度是现代管理理论的重要组成部分,是社会经济发展到一阶段的产物,是现代管理的重要手段。在新形势下,企业更应完善内部控制制度,规范日常会计行为。加强和完善
当前中国美学兴起了一股反理性的思潮。这股思潮的兴起有其合理性,但是它也有很大的盲目性。中国美学要真正有大的发展,必须突破二元对立思维方式,批判性继承中国的审美传统
笔者从某市交通管理部门了解到,2009年1~11月车辆追尾类事故在本市高速公路交通事故中占到了近60%,而在所有的追尾事故中与大货车有关的又占到了60%。由此可以看出,车辆追尾事故已
<正>数千年的文明史孕育了博大精深的中华文化,而中医文化是中华民族优秀传统文化中必不可少的组成部分,包涵了中医之自然观、生命观、疾病观、治疗观、价值观等等,也是中医
作者视角包含着作者特定的意图,作者视角的准确传递对忠实传递作者意图有着重要作用。作者视角的改变往往会改变意义构建的方向,从而影响作者意图的准确传达。然而,由于英汉
东晋是一个文艺十分繁荣的朝代,这一时期的政治格局、文化思潮都具有鲜明的时代性,艺术作品则不免成为这种时代性的映射产物,绘画作为艺术的一大门类展现着这一时期的独特魅
<正>碑刻,虽遍及天下,然以中国为盛。中国碑刻之盛,惟鲁地独绝。鲁地之碑,东平蔚为大观。东平四碑者,即张迁碑、安道壹刻经碑、玄帝宫碑、宋国琛千字文碑。四碑中,前二碑早已