论文部分内容阅读
中图分类号:TP311文献标识码:A文章编号:1671-7597(2011)0410161-01
1 高、中职院校学生成绩统计现状分析
随着高、中职院校招生规模的扩大,在校生人数越来越多,学生成绩分布越来越复杂,除了传统的学生成绩分析得出的一些结论外,还有一些不易察觉的重要信息隐含于成绩中。故而把數据挖掘技术引入到学生成绩分析中,应用数据挖掘中的粗糙集算法对学生成绩数据进行分析,找出了隐藏在数据背后影响成绩的真正原以找到影响学生成绩的真实原因,有针对性地指导教学,提高教学质量和教学效果。
2 粗糙集理论的基本知识
粗糙集理论是针对不确定性问题提出的,它的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布,模糊集理论中的隶属函数或隶属度等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律。其基本思想是将数据库中的属性分为条件属性和决策属性,对数据库中的元组根据各个属性的不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集的上下近似关系生成判定规则。
粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个要素。这种表达形式也可以看成是一个二维的表格,表格的行与对象相适应,列对应于对象的属性,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对象的可得到的信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对象的不可分辨性。粗糙集方法可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。
3 数据采集及数据预处理
3.1 数据采集
以我校参考的1个班45人的计算机成绩为分析对象,计算机成绩分为操作,打字,WORD,理论,网络,EXCEL六大部分,原始数据如下表所示:
3.2 数据预处理
数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要用掉挖掘过程中70%的工作量。对这张成绩表进行数据预处理,即离散归一化方法。把每个大题得分分成三段,排序后从高到低按30%(优良),40%(中等),30%(中等以下)分别用1,2,3表示,总分分成五段:优(100-90分),良(89-80分),中(79-70分),及格(69-60分),不及格(60分以下)分别用1,2,3,4,5表示。
4 利用粗糙集算法进行数据挖掘过程
设C表示条件属性集合,由o,p,w,t,n,e构成,它们分别表示操作得分、打字得分、WORD得分、理论得分、网络得分和EXCEL得分各条件属性,D表示决策属性,即总成绩。这样C={o,p,w,t,n,e},D={1,2,3,4,5}。本论文的目的是分析出条件属性中哪些属性最大程度地改变了决策属性的分类,以此来确定哪些条件属性最重要。为了找出某些属性的重要性,我们的方法是从表中去掉一个属性,再来考察没有该属性后,决策分类会发生怎样变化,若去掉该属性,导致分类变化大,则说明该属性的强度大,反之说明该属性的强度小,即重要性小。下面分析属性重要性,按照各属性得如下分类:
按D即{1,2,3,4,5}分类如下:记POSc(D)为D的C正域,γc(D)
=|POSc(D)|/|U|,U为论域。
1)总分类:共五大类即优、良、中、及格和不及格。
按C即C={o,p,w,t,n,e}分类如下:POSc(D)有25个元素,γc(D)=|POSc(D)|/|U|=25/45
2)按C-{o}即{p,w,t,n,e}分类如下:
POSc-{o}(D)有16个元素,γc-(o)(D)=|POSc-(o)(D)|/|U|=16/45,属性o∈C关于D的重要性为:σCD(o)=γc(D)-γc-(o)(D)=25/45-16/45=9/45
3)按C-{p}即{o,w,t,n,e}分类如下:
POSc-{p}(D)有19个元素,γc-(p)(D)=|POSc-(p)(D)|/|U|=19/45,属性p∈C关于D的重要性为:σCD(p)=γc(D)-γc-(p)(D)=25/45-19/45=6/45
4)按C-{w}即{o,p,t,n,e}分类如下:
POSc-{w}(D)有25个元素,γc(w)(D)=|POSc-(w)(D)|/|U|=25/45,属性w∈C关于D的重要性为:σCD(w)=γc(D)-γc(w)(D)=25/45-25/45=0/45
5)按C-{t}即{o,p,w,n,e}分类如下:
POSc-{t}(D)有21个元素,γc(t)(D)=|POSc-(t)(D)|/|U|=21/45,属性t∈C关于D的重要性为:σCD(t)=γc(D)-γc(t)(D)=25/45-21/45
=4/45
6)按C-{n}即{o,p,w,t,e}分类如下:
POSc-{n}(D)有14个元素,γc(n)(D)=|POSc-(n)(D)|/|U|=14/45,属性n∈C关于D的重要性为:σCD(n)=γc(D)-γc(n)(D)=25/45-14/45=11/45
7)按C-{e}即{o,p,w,t,n}分类如下:
POSc-{e}(D)有17个元素,γc(e)(D)=|POSc-(e)(D)|/|U|=17/45,
属性e∈C关于D的重要性为:σCD(e)=γc(D)-γc(e)(D)=25/45-17/45=8/45
5 数据挖掘结果
利用粗糙集理论中的属性重要性分析方法,对学生计算机测试成绩中1个班45人成绩的各个部分进行了分析。分析表明,本次考试中“网络”部分的得分高低,对学生整体的考试成绩分类的影响最大,这一结果出乎各任课教师的意料。因为网络部分的问题在老师看来是最简单的,不外乎一些简单的理论知识;浏览和保存网页、图片、文本段;收发电子邮件等“常识”性的问题。几位任课教师分别找学生座谈后才发现,我校学生大部分来自农村,有些学生入学以前没有接触过网络,老师讲课过程中对这些知识往往一带而过,他们并没有真正的掌握。在今后的教学中网络部分应适当加强,以提高考试总成绩。数据挖掘帮助老师找到了隐藏在数据背后影响成绩的原因,这对考试成绩和考试通过率的提高是至关重要的。
1 高、中职院校学生成绩统计现状分析
随着高、中职院校招生规模的扩大,在校生人数越来越多,学生成绩分布越来越复杂,除了传统的学生成绩分析得出的一些结论外,还有一些不易察觉的重要信息隐含于成绩中。故而把數据挖掘技术引入到学生成绩分析中,应用数据挖掘中的粗糙集算法对学生成绩数据进行分析,找出了隐藏在数据背后影响成绩的真正原以找到影响学生成绩的真实原因,有针对性地指导教学,提高教学质量和教学效果。
2 粗糙集理论的基本知识
粗糙集理论是针对不确定性问题提出的,它的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布,模糊集理论中的隶属函数或隶属度等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律。其基本思想是将数据库中的属性分为条件属性和决策属性,对数据库中的元组根据各个属性的不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集的上下近似关系生成判定规则。
粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个要素。这种表达形式也可以看成是一个二维的表格,表格的行与对象相适应,列对应于对象的属性,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对象的可得到的信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对象的不可分辨性。粗糙集方法可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。
3 数据采集及数据预处理
3.1 数据采集
以我校参考的1个班45人的计算机成绩为分析对象,计算机成绩分为操作,打字,WORD,理论,网络,EXCEL六大部分,原始数据如下表所示:
3.2 数据预处理
数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要用掉挖掘过程中70%的工作量。对这张成绩表进行数据预处理,即离散归一化方法。把每个大题得分分成三段,排序后从高到低按30%(优良),40%(中等),30%(中等以下)分别用1,2,3表示,总分分成五段:优(100-90分),良(89-80分),中(79-70分),及格(69-60分),不及格(60分以下)分别用1,2,3,4,5表示。
4 利用粗糙集算法进行数据挖掘过程
设C表示条件属性集合,由o,p,w,t,n,e构成,它们分别表示操作得分、打字得分、WORD得分、理论得分、网络得分和EXCEL得分各条件属性,D表示决策属性,即总成绩。这样C={o,p,w,t,n,e},D={1,2,3,4,5}。本论文的目的是分析出条件属性中哪些属性最大程度地改变了决策属性的分类,以此来确定哪些条件属性最重要。为了找出某些属性的重要性,我们的方法是从表中去掉一个属性,再来考察没有该属性后,决策分类会发生怎样变化,若去掉该属性,导致分类变化大,则说明该属性的强度大,反之说明该属性的强度小,即重要性小。下面分析属性重要性,按照各属性得如下分类:
按D即{1,2,3,4,5}分类如下:记POSc(D)为D的C正域,γc(D)
=|POSc(D)|/|U|,U为论域。
1)总分类:共五大类即优、良、中、及格和不及格。
按C即C={o,p,w,t,n,e}分类如下:POSc(D)有25个元素,γc(D)=|POSc(D)|/|U|=25/45
2)按C-{o}即{p,w,t,n,e}分类如下:
POSc-{o}(D)有16个元素,γc-(o)(D)=|POSc-(o)(D)|/|U|=16/45,属性o∈C关于D的重要性为:σCD(o)=γc(D)-γc-(o)(D)=25/45-16/45=9/45
3)按C-{p}即{o,w,t,n,e}分类如下:
POSc-{p}(D)有19个元素,γc-(p)(D)=|POSc-(p)(D)|/|U|=19/45,属性p∈C关于D的重要性为:σCD(p)=γc(D)-γc-(p)(D)=25/45-19/45=6/45
4)按C-{w}即{o,p,t,n,e}分类如下:
POSc-{w}(D)有25个元素,γc(w)(D)=|POSc-(w)(D)|/|U|=25/45,属性w∈C关于D的重要性为:σCD(w)=γc(D)-γc(w)(D)=25/45-25/45=0/45
5)按C-{t}即{o,p,w,n,e}分类如下:
POSc-{t}(D)有21个元素,γc(t)(D)=|POSc-(t)(D)|/|U|=21/45,属性t∈C关于D的重要性为:σCD(t)=γc(D)-γc(t)(D)=25/45-21/45
=4/45
6)按C-{n}即{o,p,w,t,e}分类如下:
POSc-{n}(D)有14个元素,γc(n)(D)=|POSc-(n)(D)|/|U|=14/45,属性n∈C关于D的重要性为:σCD(n)=γc(D)-γc(n)(D)=25/45-14/45=11/45
7)按C-{e}即{o,p,w,t,n}分类如下:
POSc-{e}(D)有17个元素,γc(e)(D)=|POSc-(e)(D)|/|U|=17/45,
属性e∈C关于D的重要性为:σCD(e)=γc(D)-γc(e)(D)=25/45-17/45=8/45
5 数据挖掘结果
利用粗糙集理论中的属性重要性分析方法,对学生计算机测试成绩中1个班45人成绩的各个部分进行了分析。分析表明,本次考试中“网络”部分的得分高低,对学生整体的考试成绩分类的影响最大,这一结果出乎各任课教师的意料。因为网络部分的问题在老师看来是最简单的,不外乎一些简单的理论知识;浏览和保存网页、图片、文本段;收发电子邮件等“常识”性的问题。几位任课教师分别找学生座谈后才发现,我校学生大部分来自农村,有些学生入学以前没有接触过网络,老师讲课过程中对这些知识往往一带而过,他们并没有真正的掌握。在今后的教学中网络部分应适当加强,以提高考试总成绩。数据挖掘帮助老师找到了隐藏在数据背后影响成绩的原因,这对考试成绩和考试通过率的提高是至关重要的。