论文部分内容阅读
大规模公开在线课程(Massive Open Online Courses,MOOCs)—经面世便深受全球教育者的青睐并得到大力的推广,但在MOOCs发展过程中突出的一个问题就是其表现出来的高辍学率和低完成率。为了改变这一现状,相关研究者将目光投入到学习者辍学预测的研究中,期望能通过准确预测出具有辍学风险的学习者,并提前对其采取干预措施以使其能坚持学习下去,从而提高课程的完成率。对MOOCs学习者进行辍学预测也就成为了 MOOCs、教育大数据和教育数据挖掘研究中关注的热点。MOOCs学习者辍学预测的研究虽然取得了一定的进展,但在实际应用中辍学预测的有效性有待进一步提高。影响MOOCs学习者辍学预测有效性的关键因素主要有:(1)数据及其特征的有效性,它是辍学预测模型有效性的前提;(2)模型的预测能力,它是辍学预测模型是否实用的基本保障。因此,本文以MOOCs平台中被广泛研究证明有效的学习者行为数据为基础,结合集成学习的思想和深度学习的相关方法,重点在有效特征的提取和模型预测能力的提高上对MOOCs学习者辍学预测展开研究。本文主要的研究内容和创新点如下:(1)针对现有的MOOCs学习者辍学预测研究主要依赖领域专家来提取相关特征进行预测的难点,本文提出了一种基于特征选择的整合框架来预测MOOCs中的学习者辍学问题,该框架包含特征生成、特征选择以及辍学预测。具体来讲,该框架应用以天为单位的细粒度特征生成方法来生成特征,然后使用集成的特征选择方法来选择有效的特征并送入逻辑回归模型进行预测。在公共数据集上进行的实验表明,该框架可以使用较少的特征达到与其他辍学预测方法在精确率、召回率、F1值和AUC值上相当的结果,证明了其提取特征的有效性。最后通过对选择的有效特征进行分析,提出了 MOOCs建设的参考建议。(2)卷积神经网络的广泛应用证明了其强大的特征提取能力,因此,本文尝试将卷积神经网络用来对MOOCs学习者的学习行为数据进行有效特征的提取,提出了一种基于卷积神经网络的端到端辍学预测模型。该模型将特征提取和分类整合到一个框架中,通过它们的协同学习来提高模型的预测能力。该模型首先根据不同的时间窗口转换带有原始时间戳的学习行为数据,然后使用卷积神经网络自动提取转换后数据的有效特征以获得更好的分类特征表示,最后将提取的特征送入分类器进行分类。对实验结果的非参数统计证明了该方法的有效性,特别是在大数据量的情况下要明显优于现有流行方法。(3)针对基于卷积神经网络的端到端辍学预测模型对时序特征考虑的不足,引入在时序数据挖掘中表现优异的循环神经网络,结合卷积神经网络提取局部特征,提出了一种基于神经网络融合的MOOCs学习者辍学预测模型。该模型整合了两种神经网络结构的优点,相比前面提出的模型能更加有效处理行为数据中的时序特征。与前面基于卷积神经网络的端到端辍学预测模型的实验对比结果表明了其有效性和优异性,进一步扩展了辍学预测的方法,提高辍学预测的效果。(4)现有MOOCs学习者辍学预测模型的研究主要以历史数据研究为主,对于新开课程预测时机的探讨不多,但在实际应用中这是必须要面对的问题。为了探讨这个问题,本文首先将真实的MOOCs学习者行为数据集划分为历史课程和新开课程两部分,利用已有标记的历史数据训练提出的多个模型,然后使用新开课程不同时间长度下的行为数据进行辍学预测。通过对实验结果的分析找到新开课程不同时序长度的行为数据和预测精确率、召回率、F1值以及AUC值之间的变化关系,为实际应用选取一个合适的应用时机提供一定的参考。综上所述,本文针对面向行为数据的MOOCs学习者辍学预测问题,从数据预处理、有效特征提取以及模型预测能力提高等几个方面提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后的MOOCs学习者辍学预测研究提供一定的帮助。