论文部分内容阅读
对于地广人稀的蒙古国来说,教育普及是个很重要的问题,而基于网络的远程教育系统是解决蒙古国高等教育普及的最佳选择。虽然蒙古国有远程教育系统,但是大部分都是静态的,需要建立动态远程教育系统以提高学习的效率。本文建立了基于E-测试的动态远程教育系统,可实现自动检测学生的知识水平,从教材文本库中自动提取适合学生学习的内容。因为蒙古国的教材文本库使用西里尔蒙古文,所以需要研究面向西里尔蒙古文的信息检索技术。蒙古国"信息技术、邮递、联络局"发布的2016年工作计划中提到了要促进蒙古国检索系统的发展。但是西里尔蒙古文检索系统方面的研究工作很少,只有 B·Khaltar、O·Chimeddorj 和 AtsushiFujii 等人从事相关研究。B·Khaltar 主要研究词干提取算法及其在信息检索中的应用,O·Chimeddorj主要是进一步完善了 B·Khaltar的算法,并将其使用于西里尔蒙古文与英文统计机器翻译中。本文在充分调研其他语言信息检索现状的基础上,深入研究了动态远程教育系统中西里尔蒙古文信息检索方面的问题。研究工作的创新点如下:1.在西里尔蒙古文远程教育系统中,为了提高文本检索的召回率,本文从西里尔蒙古文的构词和构形特点出发,提出了基于规则的词干提取方法。整理构建了词干资源库,其中包括西里尔蒙古文词干库(包含41000词条)、词缀库(包含168词条)和语法库(包含935词条)。通过切词缀的方式获取词干。本文在560件法律文件文本(包含1.780.968字)及75件(包含178.448字)大学教材文本数据集上进行了实验,结果表明词干提取的准确率能够达到92.6%,从而证明所提方法的有效性。2.在西里尔蒙古文远程教育系统中,为了提高文本检索效率,本文提出了确定西里尔蒙古文索引项的方法。该方法分别统计西里尔蒙古文提取词干、TF-IDF以及词共现信息,通过对比实验确定了提取词干的效果最好。并在1450件法律文件文本及250件大学教材文本数据集上进行了实验,结果表明提取关键词的准确率分别为词共现信息78%、TF-IDF59%、提取词干88%,召回率分别为词共现信息85%、TF-IDF67%、提取词干87%,从而证明所提方法的有效性。3.为了验证本文所提出的基于词干和关键词的教学文本资源检索系统的性能,采用向量空间模型(Vector Space Model,VSM)进行实验。在250件大学教材文本数据集上做了实验,两种所提方法的Cosine平均分别达到77%和85%,为了证实上述实验结果,在2560件大学教材文本数据集上做了实验,MAP 分别达到 75%(k=100),79%(k=40)和 100%(k=1)。从而证明本文所提出的基于词干和关键词的检索方法是有效的、合理的。