决策树方法在远程教育过程考核中的探索

来源 :远程教育杂志 | 被引量 : 0次 | 上传用户:luoxingrobin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 在远程教育学习环境下,通过分析在线学习过程考核的各项指标,可以了解学生的学习情况。本文使用C4.5数据挖掘算法分析过程考核中采集的数据,研究过程考核实施中存在的问题和过程考核指标的改进方向。
  [关键词] 过程考核; C4.5算法;数据挖掘;远程教育
  
  一、引言
  
  在远程教育学习中,远程教育的对象具有如下特点[1]:学习者缺乏正规学习的经验;学习者之间很少有机会进行深入交流;学习者的年龄和学习基础水平相差较大;远程教育的学习过程难以监督。在这种情况下,如何使学习者进行有效学习、保证远程教育的学习质量,成为远程教育中一个重要课题。为了鼓励学生在学习中发挥主观能动性,我们实施了在线学习过程考核,同时制定了一系列过程考核指标和标准,便于学生掌握学习进度,达到督学、促学的目的。
  本文结合数据挖掘工具Weka使用C4.5算法分析过程考核中采集的数据,通过研究现有过程考核指标与学习效果之一即卷面考试成绩之间的关联,考察过程考核方法是否真正起到了督学、促学的作用,并对过程考核指标体系加以改进。
  
  二、C4.5算法简介
  
  C4.5算法是Qualian于1993年在ID3算法的基础上改进而来[2],主要增加了对连续数据型属性和缺失数据值属性的处理能力,用信息增益率来选择属性,为避免过度数据拟合,采用了一种后剪枝方法。由于过程考核指标大多是连续值,所以本文未采用ID3算法而是选用C4.5算法来建立决策树和相应规则。
  C4.5算法的思想大致如下:将给定训练集作为决策树的根节点,训练集中的记录具有标识类别的字段;利用增益率来寻找节点上具有最大信息量的分割属性。根据分割属性不同取值建立该节点的若干分支,并为所有分支子集建立对应的节点;在每个分支子集中重复建立下层分支和节点,直到节点中所有记录的类别都相同为止。这样便生成一棵完整的决策树,然后把决策树的节点分裂过程转化为“如果……那么……”的规则,利用这些规则就可以对新数据进行分类。
  
  三、应用C4.5算法对远程教育过程考核的研究
  
  (一)数据来源
  本文的数据来源于华东理工大学网院2007年春季入学的专升本学生第一学期的学习数据,共7732条记录。
  现行学习过程考核指标由课件点播次数、课件点播时长、论坛发帖数、平时成绩、网上作业成绩等指标组成,现行过程考核标准见表1。
  
  除了以上过程考核指标外,学习平台还记录了如网上作业完成套数、平台登录次数、论坛登录次数等。为了考察这些数据对学生考试成绩的影响,也将这些数据纳入考虑范围。
  (二)数据预处理与数据初步分析
  在将原始学习数据用于数据挖掘之前,需要将其进行预处理,转换成Weka能够接受的数据格式,并且对参与数据挖掘的学习数据进行选择,确保不遗漏重要学习指标,也不引入会对结果产生不良影响的指标。为达到以上目的,我们用属性离散方法将连续型数据离散化,并使用相关矩阵来判断指标间的相关性,最后还运用Weka中的属性选择结合人工选择确定参与数据挖掘的过程考核指标。
  1.属性离散
  C4.5算法要求响应变量为离散型,由于各门课程在各成绩段的分布都有所不同,但及格分标准都是一致的,因此考试成绩按照是否及格分为合格(1)、不合格(0)两类。点播次数、论坛发帖数、时长均有相应过程考核标准,本文按照过程考核标准完成与否对这些过程考核指标进行离散。
  对于没有过程考核标准要求的网上作业成绩属性,则使用由 Fayyad和Irani提出的基于熵最小的启发式离散方法,该算法使用候选区间的类信息熵来选择进行离散的门限值边界,如果发现了一个可以使熵函数最小的区间边界,就不断地递归,在该边界所划分而产生的两边区间里使用该方法。Weka中的Discretize算法即默认应用了这种方法。
  本文使用Weka中的Discretize算法对网上作业成绩进行离散化处理[3],网上作业成绩被分为3个值域,各过程考核指标的离散化结果见表2。
  
  2.相关矩阵
  
  其中σxσy是协方差Cov(X,Y)的最大值,即两个变量标准差的乘积。
  对点播次数、时长、论坛发帖数、平时成绩、作业完成套数、作业成绩、平台登录次数、论坛登录次数等指标计算与考试成绩的相关系数,得到如下相关矩阵(见表3):
  从相关矩阵中可以看出, 相对其他过程考核指标而言,网上作业完成套数和网上作业成绩与考试成绩的相关性较强,应被选择参与数据挖掘。
  3.属性选择
  由于无关属性在多数数据挖掘方案中存在负面影响,通常在训练之前进行属性选择,只保留一些最为相关的属性。选择相关属性最好的方法是人工选择,因为人工选择是基于对问题的深入理解及属性的真正含义而做出的选择。本文通过使用Weka中的属性选择(Select Attributes)中的属性评估方法结合人工选择确定参与数据挖掘的过程考核指标。其中的属性评估方法使用了WrapperSubsetEval分类器和交叉验证方法,并使用ExhaustiveSearch穷举搜索方法搜索属性子集空间。
  在点播次数、点播等级、时长、时长等级、论坛发帖数、发帖等级、平时成绩、网上作业完成套数、网上作业成绩、网上作业等级、平台登录次数、论坛登录次数等12个指标中使用以上方法进行属性选择,属性选择的结果为:点播次数、时长等级、平时成绩、网上作业成绩、平台登录次数、论坛登录次数。由于课件学习时长在现阶段过程考核标准中暂未作要求,所以不参与数据挖掘运算。论坛发帖数虽然没有被算法选中,但为了考察其在过程考核指标中的作用,还是将其加入数据挖掘运算。
  (三)运用C4.5决策树算法建立模型及对模型的分析思考
  运用C4.5算法建立的模型分类规则如下所示:
  Rule 1:网上作业成绩 > 86.5 AND
  点播次数 <= 0: 合格
  Rule 2:网上作业成绩 > 19.5 AND
  平时成绩 <= 87 AND
  网上作业成绩 > 65 AND
  平台登录次数 > 66: 合格
  Rule 3:网上作业成绩 > 15.5 AND
  平时成绩 <= 85 AND
  论坛登录次数 <= 2: 合格
  Rule 4:网上作业成绩 > 28 AND
  平时成绩 <= 85 AND
  平时成绩 > 80: 合格
  Rule 5:网上作业成绩 > 28 AND
  平时成绩 > 83: 合格
  Rule 6:论坛发帖 > 0 AND
  网上作业成绩 <= 16 AND
  平时成绩 <= 82 AND
  平时成绩 > 78: 合格
  Rule 7:论坛发帖 <= 0: 合格
  Rule 8:网上作业成绩 > 13.5: 合格
  Rule 9:平时成绩 <= 76 AND
  平时成绩 > 70: 合格
  default: 不合格
  对以上分类规则内的学习数据分别计算网上作业平均分、网上作业完成率、课件点播指标完成率、论坛发帖指标完成率、平台登录平均次数、平时成绩平均分、论坛登录平均次数、考试成绩平均分等统计结果,形成表4。
  
  对模型采用2/3的随机实例用作训练集建模、其余1/3实例作为测试集的模型准确率评估方法,该模型的总预测分类准确率达到了84.75%。该评估结果说明,利用C4.5算法进行数据挖掘所得到的分类规则对未来数据样本的分类准确率基本达到要求。从分类规则可以看出:指标对学习结果的影响都是综合性的,没有指标能够单独决定考试成绩合格与否。
  1.论坛发帖数和论坛登录次数
  论坛发帖数在属性选择结果中没有出现,并且在C4.5算法生成的决策树和规则中都处于下层,除了其与课件点播次数关联性较大、表现出相似性的原因以外,可能与指标设计过于单一有关。需要将该指标扩展为综合考察学生参与网上讨论的表现,因此不仅包括发帖数,还可以包括阅读帖子数、登录论坛次数等。该指标也可进一步扩展为学生参与网上教学活动的综合衡量指标,包含音视频答疑等。
  2.点播次数
  通过分析Rule 1原始数据发现,部分学生还在使用传统的方法学习,不重视或者还不适应网上学习,他们平时学习基本不点播课件也不参与论坛讨论,平台登录次数也较低。对于这部分学生还需要加强网上学习方法、过程考核模式的相关引导。
  3.网上作业
  从C4.5方法的分类规则及表4中,可以明显地看出,考试成绩较好的分类,都较好地完成了网上作业且分数较高,成绩较差或不合格的分类,网上作业完成情况都较差。而且通过对Rule 3分类原始数据的分析,发现课件点播次数和论坛发帖数很少的学生通过网上作业检验了自身知识水平后,明确了知识点掌握的不足,有针对性地复习,还是能取得合格的成绩。这说明网上作业是一种较好的衡量学生知识掌握水平的方法和指标。
  4.平时成绩和平台登录次数
  经过分析,各教育中心平时成绩的评分标准不统一,按教育中心分类,最低的教育中心平时成绩的平均分为79.8分,最高的教育中心平时成绩的平均分为94.7分,各教育中心差异较明显,且总体分值相对偏高。
  分析考试成绩为不合格的分类Rule 7,可以看到,虽然这类学生点播次数和发帖次数基本都达到要求,但平台登录次数只有平均值的一半,这说明这些学生登录平台仅仅为了完成过程考核的标准,学习结果相对较差。所以,平时成绩指标可以考虑引入平台登录次数,并进一步明确平时成绩评分规则,使得平时成绩能够更客观地反映学生平时学习表现。
  (四)C4.5方法在本研究应用中的优缺点
  本文应用了C4.5分类方法,C4.5方法生成的树型分类及规则容易理解,且准确率较高。由于可以设置叶子至少包含的实例数、修剪树的信度,从而控制树的生长,得到合适大小的树,也避免了过度拟合问题以及过多的分类和规则。
  C4.5方法能够对连续属性的离散化处理,这对过程考核指标的数据挖掘非常重要。本文涉及的过程考核指标都是连续值,对已经有最低及格标准或满分标准的考核指标,在分布上聚集于考核指标的0点或者已有标准处,所以按照是否达到标准在预处理阶段人工离散这些指标是合理可行的。但是对于没有标准的考核指标,比如平台登录次数、论坛登录次数等,从分类结果可以看出C4.5方法能很好地进行离散和分类。
  在属性选择方面,用信息增益率来选择属性,克服了用信息增益来选择属性时偏向选择较多值属性的不足。但在属性的数据噪声较大、近似随机或不适用的情况下,C4.5算法并不能区分,比如课件学习时长在现阶段并未作考核要求,学生可以自由选择是否安装学习时长记录软件,这种情况下就应该在数据预处理阶段舍弃该属性,否则会对分类树的生成及分类结果带来不良影响。
  此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。在weka中使用C4.5对大量数据进行数据挖掘尝试时曾出现内存不够的情况,需要通过设置java虚拟机运行参数加大允许使用的内存大小来解决该问题。而且由于C4.5在构造树、将连续数值离散化的过程中,要对数据集进行多次的顺序扫描和排序,因而导致算法较为低效,运行速度相对较慢。
  
  四、结束语
  
  本文所用的数据是施行过程考核的学生的第一个学期的学习数据,在过程考核标准的制定和实施效果方面处于摸索阶段。通过使用C4.5数据挖掘及其他分析方法,发现了过程考核实施中存在的问题以及过程考核指标改进的方向,下一步研究方向是指标的明细优化方案,使得过程考核体系能够合理、客观地反映学生的学习情况,从而能够达到督学、促学的真正目的。
  
  [参考文献]
  [1]Taylor J A. Self Test: a flexible self assessment package for distance and other learners[J]. Computers & Education, 1998;31;319-328
  [2]Qualian J R. Programs for machine learning[J]. SanMateo,CA:MorganKaufmann Publishers,1993.
  [3] Witten I.H., Frank E. 数据挖掘:实用机器学习技术(原书第2版)[M]. 北京:机械工业出版社, 2006.
  [4]Paolo Giudici. 实用数据挖掘[M].北京:电子工业出版社,2004.
  
  [作者简介]
  肖勇,华东理工大学网络教育学院,硕士,工程师。
  程华,华东理工大学网络教育学院,博士,研究员。
  孙莹,华东理工大学网络教育学院,硕士,助理研究员。
其他文献
本文运用系统论的理论思想,在分析影响灾区介入性贫困因素的基础上,把个人能力再造、农村体系重建和保障系统作为三个子系统,提出地震灾后农村能力再造系统,并且从人力资本积累、
目的探讨小儿毛细支气管炎实施重组人干扰素α-1b雾化吸入治疗的疗效。方法选取2016年8月~2017年8月本院收治的小儿毛细支气管炎患儿90例,将其分为传统组(n=45,传统基础治疗)
运算能力是学生在数学学习中必须具备的基本能力,也是被单独列举出的数学核心素养。要想在小学高段数学课堂中强化对学 生运算能力的培养,就要将运算教学目标从算出结果转变
事物因差异而结成关系,信息在差异关系中获得呈现,人们也只能通过差异关系来识辨信息;在认识产生的过程中,主客体之间没有直接的接触,主客体的相互作用是被多级中介的,诸如信息场、
目的比较解剖型锁定钢板与防旋股骨近端髓内钉治疗老年粗隆间骨折的临床治疗效果。方法选择2016年1月至2017年1月于我院就诊的老年粗隆间骨折患者,共90例,现以入院编号为依据
通过对家庭视频/电脑游戏和视频/电脑游戏设备的使用情况,对家庭视频/电脑游戏推广和使用的影响因素,如家庭经济状况、性别和年龄差异、游戏观念、游戏角色及游戏类型等进行
[摘 要] 从目标管理的定义和意义入手,探讨了远程学习者设置、实施、反馈学习目标的策略和工具,试图为远程学习者通过自我目标管理,提高学习绩效提供有益思路。  [关键词] 远程学习;目标;目标管理  [中图分类号] G420 [文献标识码] A [文章编号] 1672—0008(2010)01—0090—04    信息时代的到来,使越来越多的人在渴望学习的同时,又容易在众多目标中迷失方向、迷失自我
目的对老年冠心病心绞痛患者采用丹参川芎嗪注射液治疗的效果进行观察。方法选取2016年4月~2017年4月收治的76例老年冠心病心绞痛患者为研究对象,将其随机分为观察组和对照组
目前,我国的建筑工程中,混凝土结构占据着主导地位,而任何一座混凝土结构物都会由于种种原因存在不同程度的裂缝,混 凝土结构出现裂缝后,既损坏外观,又对整体结构的安全构成
目的探讨对周围型肺癌患者开展多层螺旋CT诊断工作后获得的临床效果。方法选择我院2015年07月~2017年03月收治的80例周围型肺癌患者作为实验对象;对于所有周围型肺癌患者于临