CART算法在学生成绩分析中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:jodan2008tw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“数据爆炸,知识贫乏”的网络时代,人们希望能够对数据进行更高层次的分析,以便更好的利用这些数据。于是,数据挖掘技术应运而生,并显示出强大的生命力。如今,数据挖掘技术正在不断地完善,而且已经应用的领域十分广泛,但是在教学中的应用还不是非常广。本文把数据挖掘应用到学生的成绩分析中,可以找到影响学生成绩的因素,预测学生的成绩,从而有针对性地对学生进行辅导,提高教学质量。   本文首先介绍了本课题的研究背景及意义,然后介绍了数据挖掘的概念、技术、过程等。因为决策树容易理解、效率高、精确度高等特点,本文选择了决策树作为数据挖掘的工具。   论文的第三章重点介绍了决策树的算法,并且从属性选择度量的角度介绍了典型的决策树算法,包括ID3,C4.5和CART算法。对在应用中用到的CART算法,本文对它做了非常具体的探讨,在介绍算法的同时进行了举例说明,并特别指出了CART树中分类和回归的区别所在。   论文的第四章按照数据挖掘的流程实践了决策树中的CART算法在学生成绩分析中的应用,建立了预测学生成绩的四个模型,并对模型的准确度进行了评估,计算出泛化误差。从模型中可以看到影响学生成绩的因素有哪些,哪些比较重要。用于挖掘的决策属性有11个之多,而在模型中有些并没有出现。越靠近决策树根部的属性越重要,对成绩的影响也越大。通过模型还可以预测出未开课的学生的大致成绩,这样,教师在教学前就能对学生做到心中有数,有的放矢。   论文在最后提出了CART树的改进算法--随机森林,首先介绍了它的概念和特点。随机森林是一个组合分类器算法,由许多单棵分类回归树(CART)组合而成,最后通过简单多数投票法决定最终分类结果。在本文用到的回归树中,所有CART树的预测值的平均值作为预测结果。为了能和单棵CART树的准确率进行对比,本文分别选取了1课,5棵,10棵,20课,30课做成了五个大小不一的随机森林,并计算五种情况下的泛化误差。经过实验发现,随着树的数目的增加,泛化误差逐渐减小。   本文主要研究并实现了CARPT算法在学生成绩分析中的应用。为了能提高预测的准确性,本文提出了CART树的改进算法--随机森林,并且实现了对学生成绩的预测。实验结果证明,随机森林能更准确地预测学生的学习成绩。随机森林算法的应用对指导教师的教学实践和提高教学质量将起到重要的作用。
其他文献
移动机器人是一种集环境感知、动态决策与规划、行为控制与执行等多项功能于一体的高智能化机器系统,移动机器人导航是移动机器人研究的重要方向,而路径规划是移动机器人导航
军用机器人即将成为战场上的重要突击和防御武器。军用机器人也是我军在未来信息战争中达成技术优势的重要武器装备。在未来战场上,如何指挥和合理配署种类繁多的军用机器人,并
近年来以实体搜索为特点的专业搜索引擎的竞争在如火如荼的上演,实体搜索技术的研究与应用已成为信息检索领域一个新的关注焦点。作为这种新搜索模式的典型代表,给出一个搜索关
互联网时代信息技术推动健康领域革命性的变革使得人们不但对生活质量的要求越来越高还对个人和家庭的健康也越来越重视;人们不再满足于不生疾病,而到更关注预防疾病和保健。
机器学习一直是人工智能中受关注的热点领域之一。尤其是面对海量数据中的不确定数据,更需要机器学习算法的参与。因此,本文主要针对动态模糊数据,提出了一类动态模糊机器学
传感器(传感器和执行器)在今天已经无处不在。它们被应用在人们日常生活的各个方面,从工业自动化到环境监测到国土防卫。目前,传感器发展的趋势之一是智能传感器。智能传感器
目前,随着计算机和网络技术的迅速发展,实时系统已越来越广泛地应用于国防工业、航空航天工业、交通运输业、制造加工业、流程生产行业、电讯业等领域。典型的实时系统有现代化
在对目标进行识别时,通常目标相对摄像机系统会因为方位的变化,产生投影畸变,这将给正确的识别带来困难。对于人脸图像的识别同样存在这样的问题,严重的投影畸变可能会导致脸部特
车牌识别广泛用于电子收费、出入控制、交通监控等重要场合。车牌定位作为车牌识别中的重要环节,对系统识别精度有重要的影响。目前的车牌定位方法主要是针对所监视的区域只
海量教育考试数据资源的数据挖掘与分析研究工作,对于充分发掘教育考试数据的潜在价值,更加科学地进行教育管理及决策具有非常重要的意义。   论文以北京教育考试数据资源系
学位