论文部分内容阅读
在“数据爆炸,知识贫乏”的网络时代,人们希望能够对数据进行更高层次的分析,以便更好的利用这些数据。于是,数据挖掘技术应运而生,并显示出强大的生命力。如今,数据挖掘技术正在不断地完善,而且已经应用的领域十分广泛,但是在教学中的应用还不是非常广。本文把数据挖掘应用到学生的成绩分析中,可以找到影响学生成绩的因素,预测学生的成绩,从而有针对性地对学生进行辅导,提高教学质量。
本文首先介绍了本课题的研究背景及意义,然后介绍了数据挖掘的概念、技术、过程等。因为决策树容易理解、效率高、精确度高等特点,本文选择了决策树作为数据挖掘的工具。
论文的第三章重点介绍了决策树的算法,并且从属性选择度量的角度介绍了典型的决策树算法,包括ID3,C4.5和CART算法。对在应用中用到的CART算法,本文对它做了非常具体的探讨,在介绍算法的同时进行了举例说明,并特别指出了CART树中分类和回归的区别所在。
论文的第四章按照数据挖掘的流程实践了决策树中的CART算法在学生成绩分析中的应用,建立了预测学生成绩的四个模型,并对模型的准确度进行了评估,计算出泛化误差。从模型中可以看到影响学生成绩的因素有哪些,哪些比较重要。用于挖掘的决策属性有11个之多,而在模型中有些并没有出现。越靠近决策树根部的属性越重要,对成绩的影响也越大。通过模型还可以预测出未开课的学生的大致成绩,这样,教师在教学前就能对学生做到心中有数,有的放矢。
论文在最后提出了CART树的改进算法--随机森林,首先介绍了它的概念和特点。随机森林是一个组合分类器算法,由许多单棵分类回归树(CART)组合而成,最后通过简单多数投票法决定最终分类结果。在本文用到的回归树中,所有CART树的预测值的平均值作为预测结果。为了能和单棵CART树的准确率进行对比,本文分别选取了1课,5棵,10棵,20课,30课做成了五个大小不一的随机森林,并计算五种情况下的泛化误差。经过实验发现,随着树的数目的增加,泛化误差逐渐减小。
本文主要研究并实现了CARPT算法在学生成绩分析中的应用。为了能提高预测的准确性,本文提出了CART树的改进算法--随机森林,并且实现了对学生成绩的预测。实验结果证明,随机森林能更准确地预测学生的学习成绩。随机森林算法的应用对指导教师的教学实践和提高教学质量将起到重要的作用。