论文部分内容阅读
随着互联网技术的不断发展,信息技术已经涉及到各行各业。伴随着信息技术的兴起,在很多领域中,IT人才短缺的问题也日益严重。IT人才的短缺是影响信息技术迅速普及应用的重要因素。由于IT人才的短缺以及市场的需要,IT职业教育培训机构在市场上涌现出来。本文以北京百知教育科技有限公司的Java培训业务板块的18个班共1342名学习者为研究对象,在归纳和分析的基础上,采用数据挖掘的方法,比较K最近邻(KNN,K-Nearest Neighbor)算法、支持向量机(SVM)算法以及在K最近邻算法与支持向量机算法结合成SVM-KNN新算法的优缺点,构建分类预测模型,通过构建的预测模型,实现了对培训机构毕业状态的预测。根据分析预测后的结果,在学习者属性特征中找出影响学习的关键因素,这可以对IT职业教育学习者以及教育工作者提供改进学习效果的良好建议:尽早帮助学生发现学习中的相关问题,提高学习成绩;并提高毕业生的整体质量。本文收集的数据集属性包括:专业、学历层次、在校期间三个阶段--Core java阶段、WEB阶段、Framework阶段的学习成绩共5个方面的特征,对此进行了深入分析与探讨,得到了相应结论。研究目的是通过IT职业教育数据,预测每一个学生的毕业状态,通过数据挖掘算法建立预测模型;并以衡量机器学习预测模型的几种主要指标—准确率、精度以及召回率来评价模型预测效果。具体工作如下:(1)基于IT职业教育数据集,对学习者属性特征进行统计分析,通过对属性特征的统计分析以及使用SPSS工具对学习者属性特征与毕业状态之间进行了Pearson相关性分析,分析后得出结果:数据集中的专业属性、学历层次属性以及成绩属性与毕业状态存在显著相关性,而年龄属性以及性别属性与毕业状态存在弱相关性或无相关性。通过Pearson相关性分析,为数据的进一步预处理提供了基础,更重要的是为建立模型提供合适的供属性选择。(2)为了构建更为精确的分类算法预测模型,通过数据预处理方法—数据集成、数据清理以及特征变换等对数据集进行了预处理,为后续建立算法预测模型做好准备。(3)建立KNN分类器,对学习者的毕业状态进行了预测。基于KNN算法建立的分类器对准确率、精度以及召回率的预测结果分别为89.63%、90.63%和71.01%。通过F1分数指标确定了最佳K值。当K=7时,F1分数最高,为79.62%。(4)建立SVM分类器,对毕业状态进行了预测,并且在此算法的基础上建立了预测模型,通过对模型的训练从而对模型的性能做出评价。基于SVM算法建立的分类器对准确率、精度以及召回率的预测结果分别为84.22%、74.97%和89.95%。(5)对比分析前面所述2个分类器所预测的结果,总结KNN算法与SVM算法的优缺点,进而将这2种算法结合成一种新的算法—SVM-KNN算法。基于SVM-KNN算法建立的分类器对准确率、精度以及召回率的预测结果分别为90.43%、88.15%和88.01%。相比KNN分类器,SVM-KNN分类器对精度的预测降低1.18%;相比SVM分类器,SVM-KNN分类器对召回率的预测降低1.84%。但是SVM-KNN算法的整体性能提升,尤其是在KNN分类器基础上的预测召回率以及在SVM分类器基础上的预测精度尤其显著。相比SVM算法建立的分类器,SVM-KNN算法建立的分类器在对精度的预测中提升了13.18%;相比KNN算法建立的分类器,SVM-KNN算法建立的分类器在对召回率的预测中提升了17.7%。本文实验结果表明:IT职业教育学习者的属性特征可以用于预测其毕业状态,这可为教育工作者优化决策和优化教学方法提供依据,以提高毕业生的整体质量;也可以为学生提供更合适高效的学习方法,以提高其学习效率和学习效果。