基于多重索引模型的大规模词典近似匹配算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:chezhenmen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立Unigram、Bigram、Trigram、Quadgram中的一种或若干种索引,当查找用户模式尸的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R。实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度。
其他文献
从我国专业银行的机构设置来看,尽管带有较强的行政格局色彩,但大部分城市行(省分行以下的中心支行或省辖分行)都位于经济区域中心,为本地区经济发展发挥着资金结算、信用中
发展农业社会化服务体系是农村深化改革的客观要求。党中央在十三届七中全会上指出:“深化农村改革的重点,是积极发展社会化服务体系,健全和完善统分结合的双层经营体制,把集
受国家发改委委托,宁夏自治区经济和信息化委员会组织有关专家组成验收委员会,对中电投青铜峡能源铝业公司承担的国家重大产业技术开发专项“电解铝固体废弃物无害化利用技术”
目的:本文就供应室护理人员职业暴露的现状进行分析, 并提出相应的防护措施. 方法 :对我院供应室2015年1月--2015年12月期间的护理人员职业暴露情况进行调查,统计各危险因素的
目的:分析八段锦对冠心病患者心脏康复过程中心肺功能的影响。方法:选取2015年1月-2017年7月64例冠心病康复期患者,随机分为观察组与对照组。对照组采取常规药物防治以及健康
本实用新型涉及一种电解铜箔生产过程中熔铜工序的熔铜罐,其罐体上部有温度计、补液口、来液口和液位观察窗,下部有加热器或温控夹套,罐体底部有排液阀和供液口,罐体上接有液体循
从2006年下半年开始,多晶硅概念在国内逐渐升温,许多上市企业纷纷涉足其中。2008年虽然遭遇经济危机,但很多企业仍然逆市扩产。
现行体制的约束: 一、现行经济运行机制使企业患有“动力短缺症”,制约了企业参与资金市场的能动性。 企业实行承包经营责任制以来,虽然经营自主权有所扩大,但并没有从根本上
文章回顾广西"十一五"农业农村科技工作状况,结合学习中央、自治区关于制定"十二五"规划的精神,提出"十二五"农业农村科技发展的思路。
简要叙述了云铜股份公司在转炉中压余热锅炉应用ECS-100系统的实践,并介绍了ECS-100系统的功能、软硬件情况.