论文部分内容阅读
教育数据挖掘是一个综合了教育心理学、计算机科学和统计学等多学科的新兴交叉研究领域。它旨在基于教育领域内不断累积的海量数据资源,运用机器学习、数据挖掘、统计与可视化等相关技术和方法来分析和挖掘其中的内在规律,以期解决教育教学过程中的各种潜在问题,进而提升教育质量。学生成绩预测是教育数据挖掘领域的热点研究问题之一,其目的是基于学生的相关信息预测其未来的学习表现,例如:分数、排名、考核等级等。近年来,随着高校的持续扩招,在校生人数逐年增多,因而课堂教学的规模也越来越大,以致于教师很难跟踪了解每一位学生的学习情况,从而在一定程度上影响了教学质量。与此同时,各高校每年都有一定数量的学生出现考试不及格、留级、甚至退学现象,这严重影响了学生的未来发展。在这种背景下,研究构建高效的学生成绩预测方法具有重要的应用价值和实践意义。此前,许多学者已对学生成绩预测开展了部分卓有成效的工作。但是,现有的工作仍存在一些不足和尚待解决的挑战性问题,主要体现在以下三个方面:1)现有研究在进行课程成绩预测时大多依赖学生在课程进行中的表现信息,例如:出勤情况、作业完成情况和课程阶段性考核成绩等,导致需要在课程开始一段时间甚至临近结束时才能给出预测结果,存在一定程度的滞后性;2)现有研究通常采用自建数据集,样本规模偏小,从而无法满足训练复杂有效的机器学习模型的需要,严重影响了方法的预测准确性;3)现有研究主要基于学生的学习行为进行成绩预测,而缺乏对其他成绩相关信息的有效利用,并且在建模时往往采用人工定义和构建的特征,这进一步影响了方法的预测准确性。针对上述问题,本文面向高校传统课堂教学场景,以提高学生成绩预测方法的“预见性”和“准确性”为主要目标,从学生课程成绩预测和综合成绩预测两个方面开展研究,主要内容包括:1.提出了一种基于课程关联性的“课前”学生成绩预测方法,利用学生在已完成课程上的学习情况来预测其在下学期待开设课程上的成绩。针对学生已完成课程不一致的问题,引入多示例学习方法将学生表示为包含不同课程的集合;另一方面,采用多标记学习方法同时建立多门待开设课程的预测模型,使得课程间的关联关系得到潜在的利用。该方法不依赖课程开展过程中的信息,因而在课程开始前便可以相对准确地对学生成绩做出预测,具有更好的预见性。2.提出了一种基于多专业融合的学生成绩预测方法,利用多任务学习方法把多个相关专业的学生成绩预测任务放在同一个框架内完成。具体来说,本文设计了一种新的多任务学习算法MIML-Circle。针对每个专业的数据集,MIML-Circle利用来自所有专业的模型对其进行预测,并把预测结果当做该数据集中样本的一组新的特征并进一步训练模型。通过这种任务间“模型共享”的方式,实现了多个相关专业的联合建模,有效缓解了单个任务中训练数据集较小的问题,从而提高了预测的准确性。3.提出了一种学生校园行为驱动下的综合成绩排名预测方法。心理学相关研究表明,学生的行为习惯与学习成绩具有相关性。受此启发,本文利用学生校园行为信息来预测学生综合成绩排名,并设计了一个深度双路卷积神经网络方法来端到端地自动提取学生行为特征。基于海量的校园刷卡记录,本文首先将学生样本表示为一个三维张量。然后通过施加于张量数据上的双路卷积操作,建模出学生三类行为特征,包括:行为的持续性、周期性和变化情况,并将它们引入到学生成绩预测中,提高了预测的准确性。