粗糙集算法在高校学生成绩分析中的应用研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:wzxgxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:TP311文献标识码:A文章编号:1671-7597(2011)0410161-01
  
  1 高、中职院校学生成绩统计现状分析
  随着高、中职院校招生规模的扩大,在校生人数越来越多,学生成绩分布越来越复杂,除了传统的学生成绩分析得出的一些结论外,还有一些不易察觉的重要信息隐含于成绩中。故而把數据挖掘技术引入到学生成绩分析中,应用数据挖掘中的粗糙集算法对学生成绩数据进行分析,找出了隐藏在数据背后影响成绩的真正原以找到影响学生成绩的真实原因,有针对性地指导教学,提高教学质量和教学效果。
  2 粗糙集理论的基本知识
  粗糙集理论是针对不确定性问题提出的,它的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布,模糊集理论中的隶属函数或隶属度等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律。其基本思想是将数据库中的属性分为条件属性和决策属性,对数据库中的元组根据各个属性的不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集的上下近似关系生成判定规则。
  粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个要素。这种表达形式也可以看成是一个二维的表格,表格的行与对象相适应,列对应于对象的属性,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对象的可得到的信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对象的不可分辨性。粗糙集方法可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。
  3 数据采集及数据预处理
  3.1 数据采集
  以我校参考的1个班45人的计算机成绩为分析对象,计算机成绩分为操作,打字,WORD,理论,网络,EXCEL六大部分,原始数据如下表所示:
  3.2 数据预处理
  数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要用掉挖掘过程中70%的工作量。对这张成绩表进行数据预处理,即离散归一化方法。把每个大题得分分成三段,排序后从高到低按30%(优良),40%(中等),30%(中等以下)分别用1,2,3表示,总分分成五段:优(100-90分),良(89-80分),中(79-70分),及格(69-60分),不及格(60分以下)分别用1,2,3,4,5表示。
  4 利用粗糙集算法进行数据挖掘过程
  设C表示条件属性集合,由o,p,w,t,n,e构成,它们分别表示操作得分、打字得分、WORD得分、理论得分、网络得分和EXCEL得分各条件属性,D表示决策属性,即总成绩。这样C={o,p,w,t,n,e},D={1,2,3,4,5}。本论文的目的是分析出条件属性中哪些属性最大程度地改变了决策属性的分类,以此来确定哪些条件属性最重要。为了找出某些属性的重要性,我们的方法是从表中去掉一个属性,再来考察没有该属性后,决策分类会发生怎样变化,若去掉该属性,导致分类变化大,则说明该属性的强度大,反之说明该属性的强度小,即重要性小。下面分析属性重要性,按照各属性得如下分类:
  按D即{1,2,3,4,5}分类如下:记POSc(D)为D的C正域,γc(D)
  =|POSc(D)|/|U|,U为论域。
  1)总分类:共五大类即优、良、中、及格和不及格。
  按C即C={o,p,w,t,n,e}分类如下:POSc(D)有25个元素,γc(D)=|POSc(D)|/|U|=25/45
  2)按C-{o}即{p,w,t,n,e}分类如下:
  POSc-{o}(D)有16个元素,γc-(o)(D)=|POSc-(o)(D)|/|U|=16/45,属性o∈C关于D的重要性为:σCD(o)=γc(D)-γc-(o)(D)=25/45-16/45=9/45
  3)按C-{p}即{o,w,t,n,e}分类如下:
  POSc-{p}(D)有19个元素,γc-(p)(D)=|POSc-(p)(D)|/|U|=19/45,属性p∈C关于D的重要性为:σCD(p)=γc(D)-γc-(p)(D)=25/45-19/45=6/45
  4)按C-{w}即{o,p,t,n,e}分类如下:
  POSc-{w}(D)有25个元素,γc(w)(D)=|POSc-(w)(D)|/|U|=25/45,属性w∈C关于D的重要性为:σCD(w)=γc(D)-γc(w)(D)=25/45-25/45=0/45
  5)按C-{t}即{o,p,w,n,e}分类如下:
  POSc-{t}(D)有21个元素,γc(t)(D)=|POSc-(t)(D)|/|U|=21/45,属性t∈C关于D的重要性为:σCD(t)=γc(D)-γc(t)(D)=25/45-21/45
  =4/45
  6)按C-{n}即{o,p,w,t,e}分类如下:
  POSc-{n}(D)有14个元素,γc(n)(D)=|POSc-(n)(D)|/|U|=14/45,属性n∈C关于D的重要性为:σCD(n)=γc(D)-γc(n)(D)=25/45-14/45=11/45
  7)按C-{e}即{o,p,w,t,n}分类如下:
  POSc-{e}(D)有17个元素,γc(e)(D)=|POSc-(e)(D)|/|U|=17/45,
  属性e∈C关于D的重要性为:σCD(e)=γc(D)-γc(e)(D)=25/45-17/45=8/45
  5 数据挖掘结果
  利用粗糙集理论中的属性重要性分析方法,对学生计算机测试成绩中1个班45人成绩的各个部分进行了分析。分析表明,本次考试中“网络”部分的得分高低,对学生整体的考试成绩分类的影响最大,这一结果出乎各任课教师的意料。因为网络部分的问题在老师看来是最简单的,不外乎一些简单的理论知识;浏览和保存网页、图片、文本段;收发电子邮件等“常识”性的问题。几位任课教师分别找学生座谈后才发现,我校学生大部分来自农村,有些学生入学以前没有接触过网络,老师讲课过程中对这些知识往往一带而过,他们并没有真正的掌握。在今后的教学中网络部分应适当加强,以提高考试总成绩。数据挖掘帮助老师找到了隐藏在数据背后影响成绩的原因,这对考试成绩和考试通过率的提高是至关重要的。
其他文献
将与动脉脉波测定装置相连的袖带,缠绕于上臂,借助袖带充气给袖带部位的动脉加压。当袖带内压从收缩压水平缓缓下降时,可以记录到一系列逐渐变化着的动脉脉波,与以前在动物动
本文采用a-萘酚醋酸酯酶(ANAE)法对非致死量芥子气中毒后外周血T细胞及其亚群(Tu、Tr)进行了测定。结果表明,T细胞在中毒后第1、3天有显著降低,Tu细胞亦有较显著下降,而Tγ细
摘要: 运用电子政务的信息化手段,全方位对行政权力运行进行电子监察,是加强行政监管的一项重要创新,是政府监管水平的重大提高。从各异地、异构业务系统采集数据,是实现电子监察的重要一环。将重点探讨基于Web Services的数据采集在电子监察平台中的应用。  关键词: 电子监察;Web Services;数据采集  中图分类号:TP311文献标识码:A文章编号:1671-7597(2011)0410
1974~1982年我们共收治原发性扩张型心肌病139例,其中住院期间死亡36例。现将死亡病例中资料完整的33例作一分析。临床资料一、诊断标准:①经体检X线及/或超声心动图 From 1
各市、县、自治县人民政府,省政府直属各单位:职业教育是现代教育体系的重要组成部分。加快我省职业教育改革与发展,是加速海南经济和社会发展,加快人力资源开发,促进产业结
我们应用脉搏波的线化理论对70例病理性弦_脉脉图的有关参数进行测算和分析,现将结果报告如下。临床资料本组70例中住院病人47例,门诊病人23例;男性53例,女性17例;年龄25~69
2011年7月10日,教育部哲学社会科学重大课题攻关项目“提高党的建设科学化水平研究”课题组在华东师范大学举行研讨会,学习研讨胡锦涛总书记在庆祝中国共产党成立90周年大会
党的基层组织是党全部工作和战斗力的基础。随着国企改革的逐步深入,生产管理、组织人事、利益关系调整日趋多元化,给基层党组织工作带来了新的挑战,基层党组织建设创新已经
分析了轨道交通车辆基地建筑特点、用能规律以及国内外太阳能热利用技术应用现状,指出太阳能热利用技术是降低建筑物能耗的有效途径,提出了太阳能集热器与建筑集成设计的方案
赵月莲在《领导科学》第11期指出:领导干部的心理健康状况对社会起着重要的影响作用。中组部已把心理素质作为领导干部德才素质的一项重要内容。目前我国领导干部常见的不健