论文部分内容阅读
随着以大型开放式网络课程MOOC(massive open online courses)为代表的网络化教学模式的兴起,为了更好地满足学习者对学习资源的细粒度、高质量的检索要求,利用信息抽取方法构建面向机器算法使用的、能动态更新的领域概念语义知识库,该知识库对支持MOOC系统对学习资源按语义进行检索具有重要意义。本文在研究分析现有语义知识库存在静态性和有限性的不足,难以满足大规模网络文本信息检索需要的基础上,对语义知识库的自动构建和动态更新进行了深入研究,具体工作如下:(1)针对信息抽取方法存在抽取的关键词不能准确地表示概念的语义和抽取到的关键词权重值区分度不明显的问题,提出使用LDA主题模型与TF-IDF算法相结合的方法,充分利用LDA主题模型抽取的关键词语义表示全面、TF-IDF算法抽取的关键词权重值区分度明显的优点,较好地解决了语义表示不准确和关键词权重值区分度不明显的问题,与其它关键词抽取方法相比效果有显著提升。(2)针对概念知识库语义表示不全面的问题,提出采用关键词表示概念本身的语义,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库,不仅有概念间的链接关系,还有概念自身的语义关系,构建的概念知识库语义表示全面。(3)针对概念间语义相似度计算不准确的问题,对构建好的概念语义知识库采用图的随机游走算法计算概念间语义相似度,充分利用随机游走算法经过多次迭代概率值达到稳定的优点,本实验准确率能够达到84%以上,充分验证了采用图的随机游走算法计算知识库概念语义相似度的有效性。(4)针对语义知识库概念节点规模相对较小需要动态更新的问题,充分利用Word2vec的Skip-gram模型“能跳过某些符号”的优点,通过获取一个词的近义词来扩充节点个数,从而实现了知识库的动态更新。