论文部分内容阅读
随着高等教育的普及和国家财政的大力投入,中国高等院校的教育化水平不断地得到提升。与此同时科技的迅速发展为学校管理者、教师和学生提供了便利。在信息化时代,高等学校学生在接受教育的过程中留下了大量的数据信息,通过挖掘数据信息背后隐藏的知识和模式,为提高管理者管理效率以及更好地服务学生提供了强大支撑。以与学生关联最紧密的学生学业成绩和毕业去向数据为研究对象,通过采用数据挖掘技术对两者进行挖掘,为数据挖掘技术在教育领域中的应用提供了新思路。针对数据挖掘技术在大学生学业成绩与毕业去向中的应用需求,以某高校2018年全校68个专业的5445名毕业生为研究对象,以数据挖掘中的聚类和分类模型为技术手段对数据信息进行深入的挖掘研究,主要研究工作和成果如下:(1)构建了基于毕业去向的学生成绩方差分析模型。首先对获取的原始成绩与毕业数据预处理,按照专业属性将学校68个专业划分为5个大类专业,分别为理工类、农学类、经济学、管理学与文科类。其次通过描述性分析得到大类专业学生的学业总成绩排序:文科>经济学>农学>管理学>理工科;学生毕业去向依次为私营企业、升学、国有企业、灵活就业、待就业、党政机关、事业单位和外资企业。最后,以升学、体制外就业、体制内就业和不确定性就业为毕业去向分组标签,对68个专业学生的总成绩和前7个学期成绩进行方差分析,结果表明59个专业的学生总成绩存在显著差异,其中前六个学期成绩存在着显著差异,证实了学业成绩仍然是影响毕业去向选择的一个重要因素,为后续数据挖掘提供理论支撑。
(2)构建了基于学生成绩的聚类分析模型。采用数据挖掘中的K-means和FCM聚类算法,以学生的前六个学期成绩为特征值,选取聚类簇数量为5,构建基于成绩的聚类模型对59个专业的4939名学生进行聚类,并以聚类效果评价指标对两个模型进行比较,得到基于FCM的聚类模型更适用于学生成绩的聚类分析,与按所属专业大类划分的5个类别学生数据重合性最高,并对基于FCM聚类模型输出的类别学生进行分析,探究各聚类类别学生的特征。
(3)构建了大学生毕业去向分类模型。针对目前存在的毕业去向预测模型缺乏、准确率有待提升以及模型所需特征变量繁多等问题,以基于成绩聚类后的5个分类类别、学生前六个学期成绩及其加权平均成绩8个变量为特征标签建立基于支持向量机的分类模型用于预测学生毕业去向,以高斯函数为核函数,选取1-V-1方法进行SVM的多分类实验,并选取指标与ANN和RF方法建立的分类模型对比,得到基于SVM的毕业去向预测模型具有最高的准确度,且比按原五个大类专业进行分类预测的模型具有优越性。同时计算出各个因素对毕业去向影响的重要性,结果证明第五、第四学期成绩对毕业去向影响更大,值得教育管理者与教师在此阶段投入更多的精力。
(2)构建了基于学生成绩的聚类分析模型。采用数据挖掘中的K-means和FCM聚类算法,以学生的前六个学期成绩为特征值,选取聚类簇数量为5,构建基于成绩的聚类模型对59个专业的4939名学生进行聚类,并以聚类效果评价指标对两个模型进行比较,得到基于FCM的聚类模型更适用于学生成绩的聚类分析,与按所属专业大类划分的5个类别学生数据重合性最高,并对基于FCM聚类模型输出的类别学生进行分析,探究各聚类类别学生的特征。
(3)构建了大学生毕业去向分类模型。针对目前存在的毕业去向预测模型缺乏、准确率有待提升以及模型所需特征变量繁多等问题,以基于成绩聚类后的5个分类类别、学生前六个学期成绩及其加权平均成绩8个变量为特征标签建立基于支持向量机的分类模型用于预测学生毕业去向,以高斯函数为核函数,选取1-V-1方法进行SVM的多分类实验,并选取指标与ANN和RF方法建立的分类模型对比,得到基于SVM的毕业去向预测模型具有最高的准确度,且比按原五个大类专业进行分类预测的模型具有优越性。同时计算出各个因素对毕业去向影响的重要性,结果证明第五、第四学期成绩对毕业去向影响更大,值得教育管理者与教师在此阶段投入更多的精力。