论文部分内容阅读
随着信息技术的快速发展,各级学校都在大力发展信息化教育,纷纷建立起大规模试题库系统,以便进行网络化测评。但随着时间的推移,海量题库中会收录进大量相似雷同的试题,在题库系统进行自动化组卷选取试题时需要避免相似雷同试题出现在同一份考卷中,雷同相似试题中出现重复的考点知识,对知识掌握情况进行考核与评估、自动化考试系统测评任务开展的科学性与公正性都造成影响。另外很多现存试题库系统中的试题缺乏与之相应知识点的关联分类,为系统自动化组卷出题中的考查知识点出题数量及分数分配比例造成严重阻碍,因此需要采取必要的技术针对出题试题库中的相似试题进行检测,以及针对试题所属的知识模块进行试题的自动化分类。对于上述的情况问题,本文的展开的主要研究内容如下:(1)针对海量试题来源众多,需要对试题相似度检测的任务,提出了基于TF-IDF与词向量相结合的试题相似度计算方法,通过实验表明这种结合无监督词向量相似度计算方法优于传统的TF-IDF空间向量模型计算方法。在此基准上,进而展开了基于循环神经网络的试题相似度计算模型的相关研究,利用该模型可以使得试题中存在的语义相似问题可以得到合理的度量。开展了一系列的对比实验对模型进行优化调整,验证了优化后的模型能够完成试题相似度评价任务。(2)针对试题所属知识点进行分类的问题,展开了基于预训练的词向量进行知识点分类模型的研究,提出了TF-IDF与词向量结合的计算模型对试题所属知识点进行分类,通过实验表明,该方法在处理试题分类任务上,通过计算评估可以完成试题所属知识点的分类。在此基准上,进而利用标注知识点的试题集,展开了基于循环神经网络的试题分类模型研究,通过构建循环神经网络对试题进行语义编码,对分类模型进行多组调参比对的实验从而优化模型,从处理文本多分类问题的角度完成了试题的分类任务。