基于拼音输入法的中文字符串近似匹配技术研究

被引量 : 0次 | 上传用户:tanscuc2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。早期的研究多集中于精确匹配领域,提出了许多单模式匹配算法和多模式匹配算法。然而随着计算机和网络的飞速发展以及新问题的不断提出,人们逐渐发现在实际应用中有时更需要进行近似字符串匹配。它在信息查询和提取、模式识别、语音识别、文本编辑、OCR纠错、入侵检测、计算生物学等许多领域均有着重要的应用价值。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。近似字符串匹配问题又可称为“允许误差的串匹配问题”,它主要是在文本和数据库中找出模式串,并允许模式串和它在文本中的出现形式之间存在k个差异。近似字符串匹配问题的研究虽然经历了不短的时间历程,但是其中的研究对象绝大多数主要是针对DNA等小型字符集或针对英文等中等大小字符集,而对于汉字乃至亚洲语音等大型字符集的研究却仍然不多。基于上述原因,本文将基于拼音输入法对中文字符串近似串匹配查询问题进行研究与改进。论文的主要内容、贡献和创新包括如下:本文首先对论文的研究背景、研究目的、主要内容和组织结构进行了简要的介绍,同时还对近似字符串匹配问题进行了综述,介绍了相关的理论及主要研究方法。针对此,提出本文的研究目标,并对基于拼音串的近似汉字串衡量标准进行了概况描述。提出了基于拼音输入法的中文字符串相似性度量标准和近似串匹配查询技术。具体包括汉字句串转换为拼音句串,查找目标句串并确定串中近似拼音串的可能位置用以构造面向拼音串的候选集,进而构造中文近似字符串候选集,最后输出近似汉字串结果。该算法的最重要特点就是在查找目标句串并确定串中近似拼音串的可能位置阶段建立了双元素倒排索引并充分运用了q-gram技术,用以充分挖掘过滤技术、倒排索引及q-gram的潜力。算法在理论上和实践中均有较好的表现。给出了系统界面演示和实验结果分析。实验测试表明所提出的方法可以有效地解决基于拼音输入的中文近似匹配问题。
其他文献
随着用电信息采集系统的上线及集抄改造工作的逐步完善,目前青海省黄化供电公司低压台区线损管理已进入精细化管理阶段。受人员操作熟练水平、重视程度、系统功能完善程度、硬
随着我国社会的不断进步,经济水平的不断提高,市场经济的不断发展,税收制度为了适应我国的这种发展模式,正在不断进行自我完善。为了使企业的纳税成本能有所下降,通过进行合
刑事诉讼中的立案监督是我国现行刑事诉讼制度中的一个特色。立案监督制度具有刑事诉讼司法保障的性质,是诉讼启动阶段被追诉人或者控告人、举报人权利得到救济的有效手段。
虽然无线通信技术飞速发展,但煤矿井下和其他地下建筑与地面间缺乏可靠有效的无线通信技术依然是制约生产安全和效率的瓶颈。煤矿井下无线通信的信道是粘土和岩层等一些导电率
不同股市间存在波动性溢出效应,就意味着股票市场的监管、风险防范、投资组合构建等方面,要兼顾考虑本国和其他国家股市的波动性状况。而在全球股票市场中,美国和中国具有较
目的:观察黄连碱(Coptisine)对脂多糖(LPS)诱导的RAW264.7巨噬细胞炎性细胞因子NO、TNF-a和IL-1B的作用以及对p-ERK1/2、IκBα和iNOS蛋白表达的影响,探讨黄连碱体外抗炎作用
取消农业税是国家加快公共财政覆盖农村、重视农民权利保障的重大举措。那么,取消农业税对农村劳动力供给而言到底是带来了正面的还是负面的影响呢?本文运用劳动力供给的有关
世界经济的不断变化,也极大地促进了动画产业的发展速度,使之在高度的商业化时代占有重要的一席之地。创作动画角色的造型是动画影视作品是否成功的重要环节,如同选择电影中
目的:评估并分析老年长期住院患者常见的营养不良和风险情况。方法:从2017年7月到2018年1月收治的患者中选取212例老年长期住院患者为对象进行研究,从入院后第二天对患者的血
应外交学院邀请,国际著名词典学家、英国埃克塞特(Exeter)大学访问教授、伯明翰(Birmingham)大学荣誉教授、欧洲词典学学会主席、《国际词典学学刊》编委R.R.K.Hartmann博士