论文部分内容阅读
近年随着互联网技术的快速发展,大规模在线教育平台的研究与应用受到了学术界和企业界的广泛关注。在线教育平台上的教育资源越来越多,如何有效地管理海量的教育资源并提供高效便捷的查询服务,是平台需要解决的关键问题。传统的信息检索技术大多集中在关键词搜索方面,而在大规模的在线教育平台中,使用关键词搜索教育资源并生成用户需要的教学内容,过程十分繁琐且效率低下。为解决上述问题,本文在构建多源教育资源库的基础上,研究针对教育资源的信息检索与融合关键技术,以实现一键式的教育资源检索。本文的主要研究工作包括:1)根据教育资源的特征构建合理的教育资源模型,并以此为基础提出多源教育资源库的集成方案。针对教育资源模型的管理特性对Lucene的倒排索引的存储结构进行了优化,构建出用于资源检索的教育资源全文索引库。2)根据LDA主题模型的统计特征数据提出了教育资源主题索引的概念,通过LDA主题建模和主题层次聚类的方法分析并构建教育资源隐含主题的层次关联结构。基于教育资源主题索引对用户查询进行语义处理,弥补查询语义的不足,解决查询词与文档用词不匹配的问题,提高资源检索的查全率和查准率。3)以Lucene的检索引擎为基础,依据教育资源全文索引库的组织方式以及语义处理后的用户查询结构,自动生成检索方案,提出教育资源检索的流程和相关度排序算法,以获得高效的检索性能,并确保检索出的资源文档能够满足用户查询的需求。4)针对传统的信息检索方式的不足,提出了一种用查询提纲表述用户查询需求的方法。并基于查询提纲的结构设计了合理的检索资源融合方案,通过用户查询分解、查询语义处理、教育资源检索、检索资源筛选、相关内容抽取和检索内容整合来实现一键式的教育资源检索,能够根据用户查询快速生成所需的教学内容,方便了用户的查询和使用。5)在上述研究成果的基础上,本文设计并实现了一个提供教育资源检索与融合服务的原型系统EDUSE,并通过一个复习讲义的查询示例,表明了本文提出的一键式教育资源检索方式可以很好地支持多源教育资源库的信息检索与融合,快速生成用户查询所需的各种教学内容。同时,针对教育资源检索的效率和准确性两个方面分别进行了实验,验证了本文研究成果的有效性。