基于多重索引模型的大规模词典近似匹配算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：LIUCHANGQI2003

【摘要】

：

编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型，首先将背景词典根据单词长度划

【作者】

：

龚才春[1]黄玉兰[1]许洪波[2]白硕[2]

【机构】

：

中国科学院计算技术研究所信息智能与信息安全中心,北京 100080

【出处】

：

第三届全国信息检索与内容安全学术会议

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型，首先将背景词典根据单词长度划分为若干子词典，对各子词典按照一定策略建立Unigram、Bigram、Trigram、Quadgram中的一种或若干种索引，当查找用户模式尸的近似匹配时，根据模式P检索特定N-gram索引链，从而得到候选近似匹配集合C，对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R。实验表明，基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量，从而提高词典近似匹配的速度。

其他文献

基于自然语言同现词汇的邮件过滤

本文研究自然语言同现现象在邮件过滤中的应用，采用同现词汇对作为邮件过滤特征，通过实验对其过滤性能和效果做了详细的分析，实验显示它可以有效改善邮件过滤的性能。

会议

自然语言词汇邮件过滤过滤性能实验过滤特征过滤中应用显示

一种多过滤器集成学习垃圾邮件过滤方法

垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断，这是一种根据客户反馈不断自学习的过程。本文通过抽取邮件的语言特征和行为特征构建多个简单过滤器，然后采用

会议

过滤器集成学习垃圾邮件邮件过滤学习方法学习的过程计算复杂性语言特征特征学习特征构建方法组合性能行为实验客户反馈抽取

浅谈荷花的生长习性

荷花是被子植物中起源最早的种属之一。荷花的根为须状不定根,主根退化,不定根成束状环绕排列在地下茎节的四周,长约8～20厘米。在生长期根呈白色或褐色,藕成熟后根为黑褐色。

期刊

荷花不定根生长习性地下茎生长前期茎节被子植物主根生长期后根

重复串特征提取算法在不良信息检测中的应用

根据同一类文档的主题相关性，利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述，设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明，能够降低特征

会议

特征维数提取算法信息检测文档特征描述分词处理相关性主题中频效率实验设计

基于浅层语义树kernel的阅读理解答案句抽取

本文提出一种利用浅层语义信息的英文阅读理解答案句抽取方法，首先将问题和所有候选句的语义角色标注结果表示成树状结构，用树kemel的方法计算问题和每个候选句之间的语义结构

会议

浅层语义树阅读理解方法语义角色标注结构相似度语义信息树状结构计算问题准确率匹配数语料英文选择融合抽取测试

基于E-Chunk问句实例库问答系统的研究

研究了一种基于E-Chunk的问句分析方法，设计了应用该方法时的各种语义知识及其表示，用Xml文档来管理领域知识，在这种知识库上设计了一种答案抽取的方法。在此基础上，开发了领域问

会议

实例库问答系统分析方法设计原型系统语义知识领域知识答案抽取准确率知识库召回率应用文档实验开发价值基础管理

面向中文新闻领域的移动摘要系统*

面向移动终端的自动摘要技术，对摘要本身提出了更严格的字数要求。本文设计了一个面向中文新闻领域的移动摘要系统，提取新闻网页中的最大重复串作为文档的关键词集合，利用编辑距

基于动态内容的文摘方法研究

随着互联网的发展，信息的更新越来越快，从而导致内容的动态演化性越来越明显。为了从不断更新的动态内容中生成文摘，本文提出了一种具有时序偏向的多文档文摘方法——动态文摘。

会议

动态内容多文档文摘相关研究解决方案建模方法演化性互联网性能信息时序基础

面向课程教学的中文问答系统研究

大规模开放式问答系统过于偏重于知识的广度，在面向课程教学的问答系统则对问题回答的针对性和准确性要求相关较高。在教与学的过程中，面向课程教学的具有智能化的中文问答系统

一种改进K-means聚类算法在多文档文摘中的应用

本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克

会议

聚类算法多文档文摘初始聚类中心多文档集合类别数系统效率统计信息算法效率方法参数信息自适应子主题证明应用实验经验获取

基于多重索引模型的大规模词典近似匹配算法

与本文相关的学术论文