基于Lucene的蒙古文全文检索系统研究与实现

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户：HONEYMXR

【摘要】

：

随着计算机技术和网络技术的不断发展，从海量数据资源中获取有用的信息，已成为广大用户急需解决的一个问题。蒙古文是我国重要的少数民族语言文字之一，随着蒙古族人民网络知识的

【作者】

：

丁国强

【机构】

：

内蒙古师范大学

【出处】

：

内蒙古师范大学

【发表日期】

：

2013年期

【关键词】

：

Lucene 全文检索蒙古文国际标准编码蒙古文分词器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术和网络技术的不断发展，从海量数据资源中获取有用的信息，已成为广大用户急需解决的一个问题。蒙古文是我国重要的少数民族语言文字之一，随着蒙古族人民网络知识的不断增长，从互联网上获取丰富的数据信息已成为广大蒙古族人民的迫切需要。因此，为了帮助蒙古族用户快速准确地检索所需信息，构建一个蒙古文全文检索系统是非常有必要的。本文研究并实现的基于Lucene的国际标准编码蒙古文全文检索系统，不仅可以实现国际标准编码蒙古文的全文检索功能，推动国际标准编码蒙古文网络化应用的发展，同时还对蒙古文字适应信息时代发展的需求和国际标准编码蒙古文搜索引擎的快速发展起着积极作用。随着蒙古文信息处理研究工作的不断深入，蒙古文全文检索技术还可以为蒙古文搜索引擎、语法信息词典建设、机器翻译、文本自动分类、自动摘要、自动校对等领域的快速发展提供帮助。因此，基于Lucene的国际标准编码蒙古文全文检索技术的研究具有非常关键的作用。本文以实现国际标准编码的蒙古文全文检索系统为研究目标。学习了全文检索的基础理论和发展现状；解析了基于Lucene的全文检索系统的架构；了解了全文检索系统的结构与功能、建立索引、查询处理、结果优化处理和信息检索评价的方法等；分析了Lucene的一些基本概念、组织结构和工作原理等。本文重点研究了国际标准编码蒙古文的构词特点，并设计了一个符合蒙古文构词特点的蒙古文分词器，实现了对国际标准编码蒙古文词的正确切分，进而设计了基于Lucene的蒙古文全文检索系统，实现了对国际标准编码蒙古文的全文检索功能。实验结果表明本系统对蒙古文全文检索的查全率和查准率都有了很大提升，进而说明本文方法是有效的。

其他文献

基于TTCn-3的ERP系统测试方法的研究与实现

企业资源规划（ERP）系统是一种将适合于企业的管理思想贯穿其中的企业管理系统。ERP系统的核心模块主要有进货、销售、库存、人事管理、财务管理等。　　ERP软件的生命周期长，软

学位

企业资源规划TTCN-3语言系统测试设计方法体系结构

基于VRML的虚拟校园系统

虚拟现实技术在各行各业的应用都得到了飞速的发展，在这样一个网络时代，越来越多的人们利用网络环境来完成现实生活中的各项活动，如:交友、娱乐、购票、模拟驾驶、消防演习、虚

学位

虚拟现实场景建模校园系统原型机制浏览速度漫游方式

基于对称非负矩阵分解的人脸识别算法研究

人脸识别是模式识别领域的一个重要研究课题，已被广泛应用于门禁系统、考勤系统、安检、刑事案件侦破等领域中。与其他生物识别技术相比，人脸识别具有非接触式、可靠性强等优点

学位

人脸识别非负矩阵分解对称性特征提取镜像

基于聚类划分的Web日志关联规则增量式挖掘方法研究

万维网作为广泛分布,巨大的全球信息服务中心,包含了各种动态,庞大的访问和使用信息,发现信息背后的知识,对于用户访问和个性化服务具有重要的意义。本文针对Web服务器日志的

学位

关联规则增量式挖掘Web日志自组织神经网络

时间序列预测技术研究

在生活的各个领域，数据预测具有普遍性，对时间序列预测技术的研究具有深刻的现实意义。本文分别对线性、简单非线性及复杂非线性时间序列的预测问题进行研究。对现有时间序列预

学位

时间序列预测粒子滤波核粒子滤波KII神经网络

基于物理方法的三维模型变形研究

由于基于物理方法的模型变形技术充分运用了待变形模型的物理属性如质量、密度及相关的物理学原理，能够很真实地再现可变形模型的运动形变，所以此类方法能够很好地模拟可变形三

学位

物理变形方法虚拟现实几何非线性势能方法

面向下一代泛在异构无线网络垂直切换关键技术研究

近些年来，无线网络技术的发展取得了革命性的进步。涌现了一大批异构无线网络，这些形式各异的无线网络，共同组成了下一代泛在、异构的无线网络环境。下一代无线网络要求实现“5W

学位

异构无线网络垂直切换判决算法终端能耗下一代泛在

基于遗传算法的测试数据自动生成方法研究

软件测试用来发现软件错误和缺陷,从而达到保证软件质量的目的。软件测试是软件开发周期中重要的环节。生成合适的测试数据是软件测试过程中的重点和关键。手工构造软件测试

学位

软件测试遗传算法测试数据自动生成

文本分类中基于概念聚合的KNN算法优化问题研究

随着知识经济时代的到来,信息已成为这个时代的最重要标志之一,对于信息的获取与管理也越来越得到重视。信息的表现形式也从最初的结构化、半结构化逐渐向非结构化过渡。对于

学位

文本特征位串特征多类别矩阵概念聚合KNN文本分类

Sink移动的无线传感器网络中高可靠性的密钥预分配方案研究

无线传感器网络由大量计算能力低、存储量小和能量有限的微型传感器组成,具有广泛应用前景。Sink移动的无线传感器网络因其能量消耗较低和生命周期较长的特点,被推广到军事监

学位

移动Sink密钥预分配多项式抗毁性连通性

基于Lucene的蒙古文全文检索系统研究与实现

与本文相关的学术论文