论文部分内容阅读
[摘 要]本文以中职航运学校2011级轮机专业学生《金工工艺》课程成绩为例,通过在ID3算法中引入粗糙集中的决策协调度方法,进行建树决策点也就是树的根节点和分支节点的选择上进行改进,从而为成绩分析提供了一种可行的方法和思路。
[关键词]成绩分析 ID3算法 决策协调度 决策树
中图分类号:TP301.6 文献标识码:A 文章编号:1009-914X(2014)01-0173-01
0.引言
中职学校每年都会积累大量的学生成绩数据,通过这些数据能够挖掘出影响学生成绩的内在因素,不仅对教师的教学有一定的促进作用,而且还可以有针对的找出提高学生成绩的有效方法。
1.改进ID3算法介绍
基于决策协调度的决策树生成算法的具体流程如下:
(1)比较所有属性决策协调度的大小;
(2)计算决策协调度相近的属性的信息增益;
(3)信息增益最大的被选作决策分裂点,否则选择协调度最大的属性作为分裂节点;
(4)以该分裂节点进行划分后的每个属性中含有的训练元组都是同类的,并可将其作为叶子节点;
(5)利用递归调用直到条件属性为空值结束,最后生成决策树。
2.构建学生成绩分析决策树
2.1 建立数据模型
本文以2011级轮机管理专业学生的《金工工艺》课程的成绩为例,建立数据模型表如表2.1。对于出勤率中A代表满勤,B代表缺课时数为1~3学时之间,C代表缺课时数超过三学时。实习报告完成情况中A代表报告全部完成并且完成的效果好,B代表报告有1~2次没有上交,其他的完成的也可以,C代表超过两次没有上交报告,并且完成的效果一般。
表2.1 《金工工艺》成绩分析表
2.2 改进的ID3算法在实际中的应用
为了使用新算法进行有效的数据分析,现将处理后得出的783条数据按录入的顺序进行添加序号,从1到783号,得出集合,在此设上面7个属性中的“学生入学起点”用表示,即,,=出勤率,=实操能力,=实习报告完成情况,期末成绩是否合格作为决策属性。
根据公式=可计算出每个属性的决策协调度,这里假设就以前18条记录计算属性“学生入学起点”的决策协调度,则公式可写为:
==0.5679 (2-1)
那么下面计算783条记录的每个属性的决策协调度,分别为:
(1)=0.3528 (2)=0.56483
(3)=0.4235 (4)=0.56396
(5)
根据上面得出的数值进行分析,“课堂掌握程度”属性和“实操能力”属性的决策协调度的值相差很少,所以要最终确定哪个属性作为决策分裂点就必须再计算两个属性的信息增益值,通过增益值检测作为分裂点节点的属性。根据公式计算期末成绩的信息增益得出结果。在期末成绩中有317人成绩不合格有466人成绩及格,因此对期末成绩d中元组按是否合格分类所需的期望信息为:
==0.9238 (2-2)
然后根据公式计算课堂掌握程度和实操能力两个属性的信息增益结果。
(1)
(2)
根据计算得出的数值进行分析比较信息增益值比较大的是“课堂掌握程度”,所以将该属性选择为分裂属性。那以课堂掌握程度为决策树的根节点能形成初步的决策树见图2.1。
图2.1 “课堂掌握程度”为根节点的决策树初期
按照上述分裂点的选取方法,构建完整决策树。
3.结语
本文首先分析了数据挖掘技术应用于成绩分析过程的必要性,并对改进的ID3算法进行详细描述,将其应用在《金工工艺》课程分析中,以2011级学生的实际成绩建立数据库,构造了课程相关性分析决策树,最后挖掘出隐含因素,对课程教学质量提高提供参考依据。
参考文献
[1] 李苗.在决策树技术在学生考试成绩数据库中的应用.教育信息化,2005(6).
[2] Micheline Kamber Data Minng Concepts and Techniques Second Edition 2006.3:290-307P.
[3] 牛文穎.改进的ID3决策树分类算法在成绩分析中的应用研究.大连:大连交通大学,2008.
[关键词]成绩分析 ID3算法 决策协调度 决策树
中图分类号:TP301.6 文献标识码:A 文章编号:1009-914X(2014)01-0173-01
0.引言
中职学校每年都会积累大量的学生成绩数据,通过这些数据能够挖掘出影响学生成绩的内在因素,不仅对教师的教学有一定的促进作用,而且还可以有针对的找出提高学生成绩的有效方法。
1.改进ID3算法介绍
基于决策协调度的决策树生成算法的具体流程如下:
(1)比较所有属性决策协调度的大小;
(2)计算决策协调度相近的属性的信息增益;
(3)信息增益最大的被选作决策分裂点,否则选择协调度最大的属性作为分裂节点;
(4)以该分裂节点进行划分后的每个属性中含有的训练元组都是同类的,并可将其作为叶子节点;
(5)利用递归调用直到条件属性为空值结束,最后生成决策树。
2.构建学生成绩分析决策树
2.1 建立数据模型
本文以2011级轮机管理专业学生的《金工工艺》课程的成绩为例,建立数据模型表如表2.1。对于出勤率中A代表满勤,B代表缺课时数为1~3学时之间,C代表缺课时数超过三学时。实习报告完成情况中A代表报告全部完成并且完成的效果好,B代表报告有1~2次没有上交,其他的完成的也可以,C代表超过两次没有上交报告,并且完成的效果一般。
表2.1 《金工工艺》成绩分析表
2.2 改进的ID3算法在实际中的应用
为了使用新算法进行有效的数据分析,现将处理后得出的783条数据按录入的顺序进行添加序号,从1到783号,得出集合,在此设上面7个属性中的“学生入学起点”用表示,即,,=出勤率,=实操能力,=实习报告完成情况,期末成绩是否合格作为决策属性。
根据公式=可计算出每个属性的决策协调度,这里假设就以前18条记录计算属性“学生入学起点”的决策协调度,则公式可写为:
==0.5679 (2-1)
那么下面计算783条记录的每个属性的决策协调度,分别为:
(1)=0.3528 (2)=0.56483
(3)=0.4235 (4)=0.56396
(5)
根据上面得出的数值进行分析,“课堂掌握程度”属性和“实操能力”属性的决策协调度的值相差很少,所以要最终确定哪个属性作为决策分裂点就必须再计算两个属性的信息增益值,通过增益值检测作为分裂点节点的属性。根据公式计算期末成绩的信息增益得出结果。在期末成绩中有317人成绩不合格有466人成绩及格,因此对期末成绩d中元组按是否合格分类所需的期望信息为:
==0.9238 (2-2)
然后根据公式计算课堂掌握程度和实操能力两个属性的信息增益结果。
(1)
(2)
根据计算得出的数值进行分析比较信息增益值比较大的是“课堂掌握程度”,所以将该属性选择为分裂属性。那以课堂掌握程度为决策树的根节点能形成初步的决策树见图2.1。
图2.1 “课堂掌握程度”为根节点的决策树初期
按照上述分裂点的选取方法,构建完整决策树。
3.结语
本文首先分析了数据挖掘技术应用于成绩分析过程的必要性,并对改进的ID3算法进行详细描述,将其应用在《金工工艺》课程分析中,以2011级学生的实际成绩建立数据库,构造了课程相关性分析决策树,最后挖掘出隐含因素,对课程教学质量提高提供参考依据。
参考文献
[1] 李苗.在决策树技术在学生考试成绩数据库中的应用.教育信息化,2005(6).
[2] Micheline Kamber Data Minng Concepts and Techniques Second Edition 2006.3:290-307P.
[3] 牛文穎.改进的ID3决策树分类算法在成绩分析中的应用研究.大连:大连交通大学,2008.