基于多重索引模型的大规模词典近似匹配算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:LIUCHANGQI2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立Unigram、Bigram、Trigram、Quadgram中的一种或若干种索引,当查找用户模式尸的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R。实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度。
其他文献
本文研究自然语言同现现象在邮件过滤中的应用,采用同现词汇对作为邮件过滤特征,通过实验对其过滤性能和效果做了详细的分析,实验显示它可以有效改善邮件过滤的性能。
垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文通过抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用
荷花是被子植物中起源最早的种属之一。荷花的根为须状不定根,主根退化,不定根成束状环绕排列在地下茎节的四周,长约8~20厘米。在生长期根呈白色或褐色,藕成熟后根为黑褐色。
根据同一类文档的主题相关性,利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述,设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明,能够降低特征
本文提出一种利用浅层语义信息的英文阅读理解答案句抽取方法,首先将问题和所有候选句的语义角色标注结果表示成树状结构,用树kemel的方法计算问题和每个候选句之间的语义结构
研究了一种基于E-Chunk的问句分析方法,设计了应用该方法时的各种语义知识及其表示,用Xml文档来管理领域知识,在这种知识库上设计了一种答案抽取的方法。在此基础上,开发了领域问
面向移动终端的自动摘要技术,对摘要本身提出了更严格的字数要求。本文设计了一个面向中文新闻领域的移动摘要系统,提取新闻网页中的最大重复串作为文档的关键词集合,利用编辑距
随着互联网的发展,信息的更新越来越快,从而导致内容的动态演化性越来越明显。为了从不断更新的动态内容中生成文摘,本文提出了一种具有时序偏向的多文档文摘方法——动态文摘。
大规模开放式问答系统过于偏重于知识的广度,在面向课程教学的问答系统则对问题回答的针对性和准确性要求相关较高。在教与学的过程中,面向课程教学的具有智能化的中文问答系统
本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克