基于校园卡消费预测学生挂科情况

来源 :中国教育技术装备 | 被引量 : 0次 | 上传用户:zhengziwei5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 旨在通过校园卡消费来预测学生挂科情况。首先通过对消费数据和成绩数据的预处理,再结合辅导员的反馈,提出作息习惯对成绩有很大影响的合理猜想;然后运用多种数据挖掘模型来预测学生是否存在挂科风险。研究结果表明,通过使用一卡通消费数据,能比较准确地预测学生是否存在挂科风险,其中朴素贝叶斯模型的预测效果最好,Recall超过80%。
  关键词 校园卡;数据挖掘;一卡通;Recall;挂科
  中图分类号:G647 文献标识码:B
  文章编号:1671-489X(2017)24-0051-05
  Using Consumption of Campus Card to Predict Students’ Fail//ZHOU Qing, YIN Chunmei, QUAN Wenjun, ZHANG Daiying
  Abstract This study aims at predicting the students’ final exam per-
  formance using the campus card consumption data. Firstly, data pre-
  processing was conducted in our experiments. And then, a reasona-ble assumption based on the counselor’s feedback and related studies
  about the correlation between students’ living styles and their acade-
  mic performance was proposed. Finally, some state-of-art algori-thms were adopted for prediction. Our experiments showed that Ba-yesian model outperformed the others, and Recall was more than 80%.
  Key words campus card; data mining; metro card; Recall; fail an exam
  1 引言
  教育數据挖掘(Educational Data Mining,简称EDM)
  是综合利用数理统计、机器学习和数据挖掘技术与方法,对教育大数据进行处理和分析,从而发现这些信息背后隐藏的有价值的信息[1]。学生表现预测(Predicting Student
  Performance,简称PSP)是EDM最早也最流行的应用之一[2],它有利于及时发现学生出现的不良学习行为,检查教师的教学效果。
  高校数字化校园建设中使用到许多系统,如校园一卡通系统、智能校园系统、自助图书馆服务系统等,这些系统在方便学校管理的同时也积累了大量的数据。如果将这些数据有效地运用起来进行数据挖掘,能获得不少有价值的信息。校园一卡通系统里存储着丰富的学生消费数据,研究校园一卡通数据,有助于了解学生在校生活情况。很多国外的学者通过校园一卡通数据分析学生在校的生活习惯。张林红[3]等人通过数据挖掘方法,发现吃早餐的次数和时间与成绩存在较大的相关性和可靠的关联规则。
  本研究主要通过校园卡消费来分析学生作息习惯,从而预测学生是否存在挂科风险。首先对校园卡消费数据进行预处理,然后根据相关研究结果以及辅导员的反馈提出几个用于预测学生成绩的猜想,接着根据猜想选取四个特征变量,最后通过使用几种经典的数据挖掘方法来预测学生挂科风险。实验结果表明,朴素贝叶斯预测效果最好,它的Precision和Recall分别为62.15%和80.41%。由此可以看出,通过学生校园卡消费数据能较准确地预测出存在挂科风险的学生,这有利于对学生学习的及时预警和向学生提供帮助。此外,本实验用来进行预测建模的特征集只包含四个特征,虽然该特征集比较简单,但这几个特征能很好反映学生的作息习惯,并且具有较高的可解释性。
  2 数据预处理
  本实验数据来源于学生校园卡刷卡记录和成绩记录,通过对这些数据的观察,发现这些数据比较杂乱且难理解。为了更好地了解数据以便为进一步分析做准备,对这两部分数据分别进行了预处理。
  校园一卡通数据预处理 校园一卡通数据由重庆大学2012级计算机科学与技术专业的167名学生从第二学期到第四学期共约18万条刷卡消费记录构成。为保护学生隐私,对学生学号进行加密处理。所有学生的校园卡消费记录按时间顺序存储在数据库中的一个表中,表中包含27个字段,如刷卡时间、学生学号、账户号、卡号、姓名、性别、部门编码等。这些数据中有很多用不到的字段,只保留表1所示字段:学号、消费时间、消费地点、消费金额等。
  通过对比发现,学生一卡通中的数据以食堂消费数据居多且最为稳定,而其他消费出现频率较低,如超市、洗衣、网络费。这些数据不利于分析学生的作息和学习情况,所以实验中只选用食堂消费数据。为了分析食堂的就餐情况,需要解决以下问题:
  1)校园内有上百个商家,需要确定哪些商家属于食堂;
  2)学生节假日和周末的就餐记录少且分布散乱,可能与上课期间存在极大差异,不利于学生就餐或者作息规律性的发现;
  3)学生三餐时间受到很多因素影响,如最主要的食堂开放时间和上课时间安排,合理划分三餐时间和夜宵是一个需要解决的问题。
  为了解决以上问题,通过分析原始记录,确定最终消费数据预处理过程。
  1)数据过滤。首先确定哪些商家属于食堂,将非食堂的消费记录过滤;然后鉴于周末和节假日的消费存在较大的偶然性,过滤掉这些时间的消费记录。   2)类型划分。根据食堂供餐规律,将11:00之前的消费记录判定为早餐,11:00—16:00记作午餐,16:00—20:00归为晚餐,20:00之后统一归为夜宵。另外,根据上课时间安排,给学生划定一个标准就餐时间,这里定义标准就餐时间为:早餐,6:30—8:25和9:40—10:10;午餐,11:40—12:40;晚餐,17:20—18:20。
  3)记录合并。按照消费类型对消费记录进行合并,消费时间设定为在被合并的消费记录中最早的消费时间,消费金额为被合并的消费记录之和。经过对数据的预处理和统计分析之后得到三类特征:就餐时间、就餐金额、就餐规律。这些特征共计34个。表2列出部分特征属性的分类和计算方法,这里以早餐为例,实际表中还包含午餐、晚餐等。
  成绩预处理 本实验的成绩数据为学生成绩管理系统中计算机科学与技术专业167名学生(其中38名女生,129名男生)第二至四学期的成绩记录,每个学生大约有75条成绩记录,总计约12 000条。
  在学生成绩管理系统中,每个学生都有一张成绩表,里面存储着学生入校以来的所有考试成绩记录。这些表包含10个字段,分别是课程编码、课程名称、成绩、学分、选修、类别、教师、考别、备注、时间等(表3)。从这些表中可以看出成绩是无序的;成绩的评定没有统一的标准,有的成绩按分数表示,有的按等级表示;考试的类别也比较多样,包含正考和补考;同一门课程也有可能出现正常和重修的情况;另外,记录中还包含与成绩不相关的教师、课程编码等信息。由于原始数据存在如此多的问题,因此,為了详细了解学生成绩分布情况,对成绩数据进行预处理。
  本研究的目的是预测学生是否存在挂科风险,所以首先需要统计学生的挂科情况。整体看来,学生每学期的挂科率为39%。另外,学生成绩绩点(GPA)也是学生成绩优劣的综合体现,因此,根据奖学金划分原则统计了GPA位于前15%和后15%的情况。综合以上需求,成绩处理结果如表4所示。
  3 特征属性的猜想及验证
  从辅导员的反馈可知学生的作息时间、生活规律性以及自习习惯能在一定程度上反映一个学生成绩的好坏,同时也有相关研究证实了这一观点。梁桂珍[4]在学生作息习惯与学生成绩相关关系的研究中发现,早起早睡的学生成绩更优异。张林红的研究表明,早餐时间和早餐规律性与学生成绩存在很大的相关性。另外,国内不少学者在各自的研究中均发现学生成绩和图书馆的利用情况存在显著的正相关。
  由于学生的作息与成绩存在一定的相关性,因此,尝试从学生的校园卡就餐消费情况中挖掘出学生的作息习惯,从而预测学生的成绩。但是该数据集没有直接提供有关学生作息习惯的信息,这就需要对就餐数据进行详细分析,以便找出学生作息习惯的规律性并提取相应特征。图1和图2是2012级计算机科学与技术专业学生的就餐时间分布图,分别代表成绩优异的和成绩一般的学生的就餐分布热力图。图中横坐标表示时间点,纵坐标表示年份、月份,中间的数字代表在对应时间的就餐次数,数值越大颜色越深。
  从图1可以看出,成绩较优异的学生就餐时间比较符合课程时间安排,比如:8:30上第一节课之前,9:40后30分钟的课间休息时间,一般按时上课的学生会选在这两个时间段内吃早餐。然而图2中的这类学生早餐次数极少,且分布多在9点之后。同样,上午放学时间在11:50,成绩较优异的学生多在这个时间前后就餐,较差的学生在13点之后。综合以上发现,笔者认为按课程时间的就餐规律与成绩存在一定的相关性。另外,由于学生三食堂离图书馆很近,多数去图书馆学习的学生会选择在图书馆吃晚餐,因此,笔者认为学生在三食堂的晚餐数据能在一定程度上反映学生去图书馆自习的情况。
  为了了解本实验各特征变量对成绩的影响大小,笔者做了相关性分析。从表3可以看出,作息相关的特征与成绩存在较大的相关性。另外,根据辅导员的反馈和相关文献的研究以及对实际数据的相关性分析,猜想早餐频率、平均早餐时间、标准时间就餐次数、三食堂晚餐次数占学期总天数的比重等能较好地反映学生的作息习惯,可以作为特征属性来预测学生的挂科情况。
  接下来将对猜想的合理性做进一步分析。首先,为了更形象地对比成绩与所选特征属性之间的关系,对预处理后的数据进行可视化分析。从图3可以看出,学生成绩越优异,吃早餐的时间越早。图4表明,学生成绩的优劣随着规定时间就餐频率和三食堂的晚餐情况变化而变化。
  综合以上分析可以看出,学生作息习惯确实与学生成绩存在较大相关性。本实验所选取的特征属性包括早餐时间、早餐频率以及学生标准时间就餐次数等,能很大程度上反映学生的学习情况。
  4 实验对比
  预测模型 EDM中运用了很多经典的数据挖掘算法[5],如决策树、人工神经网络、朴素贝叶斯、逻辑回归和支持向量机等。本实验中也采用了这些算法。下面将对朴素贝叶斯算法进行简要介绍。
  贝叶斯分类器(Naive Bayesian,NB)的原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类别。已经有不少学者使用贝叶斯算法来预测学生的成绩提升、学业表现和学期成绩。
  评价指标 本文研究的问题(即预测学生是否挂科)是一个典型的二分类问题。预测结果分为四种类型:
  预测为挂科的学生该学期实际也挂科了,可表示为TP(True Positive);
  预测为不挂科的学生实际却挂科了,可表示为FN(False Negative);
  预测为挂科的学生实际不挂科,可表示为FP(False Positive);
  预测为不挂科的学生实际也不挂科,可表示为TN(True Negative)。
  二分类预测问题中常用召回率(Recall)、准确率(Precision)和F1值(F1-measure)来评价模型的优劣。在本应用中,辅导员更在意的是Recall,也就是尽量多地找出可能挂科的学生。   实验过程及结果 本实验中采用DT、ANN、NB、LR、SVM等多种算法来建立模型,以对预处理之后的数据进行分析。各模型均使用10折交叉验证,即将167名学生第二至四学期的统计记录随机分成10份,九份用于训练模型,一份留作检验。总记录条数本应为501条,但由于有三条数据存在较大的缺失,因此,实际分析中用到的是498条。将整理好的数据分别导入各个模型中,以学生是否挂科作为预测标签,使用选定的特征属性来对学生的挂科情况进行预测。实验结果如表5所示。
  从表5可以看出,NB模型的预测综合性能最好,F1值达到0.70。由于在本研究中Recall是关注的重点,而NB模型的Recall明显比其他模型好,达到80.41%,因此,NB模型能较准确地预测学生的挂科风险。从本实验可以看出,看似与学生成绩没有多大关联的一卡通消费数据,也可以比较准确地预测学生是否存在挂科风险。一個很重要的原因是通过辅导员的反馈和相关研究成果对成绩的影响因素进行合理猜想,从而从一卡通消费数据中提取出恰当的特征来预测学生成绩。较少的特征数量也有效地避免了模型过拟合的问题。
  5 结论
  笔者认为,利用一卡通消费数据预测学生成绩是一个新颖的尝试。本实验首先对原始的消费数据进行预处理,然后根据辅导员的反馈和数据分析提取出四个特征,最后采用不同的数据挖掘算法来构建预测模型。实验结果表明,通过使用一卡通消费数据,能有效地预测学生是否存在挂科风险,其中朴素贝叶斯模型的预测效果最好,Recall值达到80.41%。虽然本实验仅选取了四个特征变量,但这几个特征变量能很好地反映学生的作息习惯,具有很高的可解释性。
  本研究尚不完善,如模型采纳的数据还不够全面。目前,高校数字化校园建设已经比较成熟,各个校园管理系统都存有丰富的学生数据,如图书馆、门禁系统等,如果能有效地将这些数据运用起来,相信可以发现更多有价值的、有意义的信息。因此,下一步想结合图书馆数据做进一步研究。另外也希望本研究能对PSP的研究人员带来一些启发,促进PSP研究的发展。
  参考文献
  [1]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革:美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013(6):11-17.
  [2]Romero C, Ventura S. Educational Data mining: A
  reviews of the state of the art[J].IEEE Transactions on Systems Man
其他文献
距今近2万a来的古气候恢复越来越受到人们的重视,研究的方法途径也越来越丰富,利用沉积物碳酸盐碳氧同位素δ18O、δ13C值来反演古气候就是其中之一.文章利用古堰塞湖沉积物
介绍了SDI数字视频和病态码测试的基本原理,分析了数字电视系统在极端条件下出现信号劣化的原因,阐述了在高标清传输系统中使用病态码信号进行增强测试对于预防系统崩溃、保证
针对分布式线性分散码空频编码系统,提出了一种新的自适应编码和译码联合的方案。中继节点根据信道状况自适应选择分散矩阵和调制方式,接收端根据设定的信道条件数阈值自适应选择译码算法,并在COST207典型城市信道模型下进行了MATLAB仿真。仿真结果表明文中所提算法能够有效改善系统的性能。
对于茶叶制作来说,其中最重要的一个设备就是茶叶筛分机,目前,这个机器的使用范围是最广的,这种机械通常采用的都是三平移并联,这样可以保证筛框可以在平行面上来回移动。传
摘 要 结合小学英语教学实践,就信息技术在英文字母教学中的应用进行探究和思考。  关键词 信息技术;小学英语;字母教学  中图分类号:G623.31 文献标识码:B  文章编号:1671-489X(2016)01-0031-02  1 前言  随着我国改革开放进程的加快和对外交流的日趋密切,英语被更多的人作为一种工具逐渐重视起来。字母教学是小学英语教学的基础,这一基础学习得好坏将对小学生今后学习英
高清视频处理系统对实时性要求很高,解码之后的数据量很大,而且搬移到显示缓冲区有不同的排列显示要求.给出了4种情况下,解码的宏块地址到显示缓冲区地址的对应关系.针对主要
对岩石高边坡稳定性分析的特点进行了讨论,提出了一套系统评价岩石高边坡稳定性的方法——边坡场地岩体工程地质力学方法。文中对其内容和步骤作了详细的论述。
就自适应数字波束形成(ADBF)技术的应用背景进行了介绍,分析了MUSIC算法和MMUSIC算法,研究了ADBF技术,其中包括DOA原理、ADBF原理以及实现的算法,详细介绍了FPGA+DSP实现方法和具体
本文在详细分析三峡船闸岩体的地质结构与渗流特征的基础上,运用渗流损伤分析方法,对三峡船闸岩体的稳定性进行了数值模拟,并得出一般渗透压力作用。暴雨足够渗透压力作用下的损
当前我国的主要矛盾已经从人民日益增长的物质文化需求同落后的生产力之间的矛盾,转变为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。社会的主要矛盾变化标志