论文部分内容阅读
随着计算机技术和网络技术的不断发展,从海量数据资源中获取有用的信息,已成为广大用户急需解决的一个问题。蒙古文是我国重要的少数民族语言文字之一,随着蒙古族人民网络知识的不断增长,从互联网上获取丰富的数据信息已成为广大蒙古族人民的迫切需要。因此,为了帮助蒙古族用户快速准确地检索所需信息,构建一个蒙古文全文检索系统是非常有必要的。本文研究并实现的基于Lucene的国际标准编码蒙古文全文检索系统,不仅可以实现国际标准编码蒙古文的全文检索功能,推动国际标准编码蒙古文网络化应用的发展,同时还对蒙古文字适应信息时代发展的需求和国际标准编码蒙古文搜索引擎的快速发展起着积极作用。随着蒙古文信息处理研究工作的不断深入,蒙古文全文检索技术还可以为蒙古文搜索引擎、语法信息词典建设、机器翻译、文本自动分类、自动摘要、自动校对等领域的快速发展提供帮助。因此,基于Lucene的国际标准编码蒙古文全文检索技术的研究具有非常关键的作用。本文以实现国际标准编码的蒙古文全文检索系统为研究目标。学习了全文检索的基础理论和发展现状;解析了基于Lucene的全文检索系统的架构;了解了全文检索系统的结构与功能、建立索引、查询处理、结果优化处理和信息检索评价的方法等;分析了Lucene的一些基本概念、组织结构和工作原理等。本文重点研究了国际标准编码蒙古文的构词特点,并设计了一个符合蒙古文构词特点的蒙古文分词器,实现了对国际标准编码蒙古文词的正确切分,进而设计了基于Lucene的蒙古文全文检索系统,实现了对国际标准编码蒙古文的全文检索功能。实验结果表明本系统对蒙古文全文检索的查全率和查准率都有了很大提升,进而说明本文方法是有效的。