论文部分内容阅读
大数据技术在发展过程中与各种行业进行了深度整合。其中,大数据与教育的结合产生了教育数据挖掘技术。教育数据挖掘可以看作是数据挖掘技术在教育领域的应用。教育数据挖掘关心的问题是如何利用计算机、统计学、心理学、教育科学等领域的技术解决教育教学中的实际问题。其中较为常见的一个研究方向就是学生成绩预测。本研究属于“重庆大学学生行为分析平台”的成绩预测子模块的相关研究。该模块设计的目的是用网络和历史成绩数据预测学生成绩。团队中以往基于网络日志的学生成绩预测研究,都是针对于某一门特定课程的成绩预测进行的。本文尝试提出一种不限于特定课程,可以对某个学期学生是否具有“挂科”风险进行预测的方法。同时文章还尝试引入校园卡消费数据对模型的预测性能进行优化。文章着重介绍了成绩数据、网络日志的预处理部分和特征提取部分。首先对网络日志进行了分析,发现原始日志文件存在噪声多、网站域名多的问题。针对噪声问题,提出了两种判断网络日志中噪声数据的方法:根据请求资源扩展名判断和根据请求地址域名判断。为了解决记录中域名过多的问题,引入了网址分类库。以分类库为基础,将日志中的记录与具体的网站类型相关联,从而可以以此为基础对网络日志进行进一步分析。在分析学生网站类型访问差异时,文章提出对网站类型按支持度大小进行分层挖掘的方法。通过综合使用频繁项挖掘,k-Means聚类算法对网站类型进行分层处理,得到“挂科”与“非挂科”学生在网站类型访问上的差异。较好的解决了网站类型访问分布不均匀,难于挖掘的问题。为了优化模型预测效果,了解学生花费在观看在线视频和玩网络游戏上的时间。文章还提出了估算浏览在线视频时长和网络游戏时长的方法。文章针对视频网站通信特点的不同,提出了估算视频网站浏览时间的方法:利用日志中的特殊标志对视频浏览时间进行估算。文章还利用心跳信息对网络游戏的时间进行估算。通过对约500亿条成绩数据、网络日志数据和校园卡消费数据进行清洗、转换、特征提取等操作,得到历史挂科门数、历史学分绩点、网站类型访问频次、在线游戏视频时间、午餐消费次数、早餐午餐消费总次数、三餐消费次数等特征。构建出7种特征组合,并分别使用逻辑回归和集成学习(Ada Boost)算法建立预测模型。实验表明,在以历史挂科门数作为基础特征的情况下,通过添加网络日志相关的特征和校园卡消费的相关特征,可以提高模型的预测效果。在以“挂科”为正样本时,最优的模型Specificity达到74.07%,Sensitivity达到74.67%。与基础模型相比GMean提高了22.81%。本研究提出的成绩预测方法并不限定于某一门特定的课程,可以用来预测学生在某学期是否会“挂科”,从而可以通知学生本人和辅导员,具有一定的实用性。同时由于网络日志属于通用网关日志而非专用系统日志,所以本文提出的模型具有较好的适用性。