支持向量机算法在学生评价中的应用

来源 :人间 | 被引量 : 0次 | 上传用户:wp61wp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:支持向量机分类通常的做法是在样本集中选取一部分数据作为训练样本建立分类模型,另一部分用作测试集,测验模型的准确率。但当训练样本规模相对较大时,如何选取包含信息量多的样本作训练样本是本文研究的重点,结合实际数据特点,提出基于聚类策略的训练样本选取方法,并且在训练时间以及预测精度上收到了理想的结果,这对日后学校的学生评价工作具有非常实用的价值。
  关键词:学生评价;支持向量机算法;聚类策略
  中图分类号:G647 文献标识码:A 文章编号:1671-864X(2015)10-0088-02
  引言
  高校的学生评价不仅仅是评定学生,另外还具有引导和有助于学生的发展。在今天素质教育的倡导下,学生的发展应当是全面综合的发展,包括专业知识与技能、道德修养、身体素质等各方面在内的发展。传统的学生评价模式泰勒模式[1]以及CIPP模式[2]不是存在评价目标单一的缺陷就是过于注重结果评价,这样的评价模式皆不能适应现在的素质教育要求。因此特别需要一种更加恰当的评价方法对上述学生评价中存在的问题加以解决。
  本文针对学生样本数据的特点,利用支持向量机分类算法对其进行分类研究。支持向量机(Support Vector Machine),简称SVM[3],是建立在统计学习理论的结构风险最小化原理上的一种分类技术,对于解决小样本、非线性、高维数问题,比其他分类算法具有更好的泛化性。它避免了神经网络中的局部最优解的问题,并有效地克服了“维数灾难”和“过学习”等传统困难[4]。
  一、支持向量机理论
  支持向量机的最初应用是线性可分的二分类问题,最优分类面也是由此而来的。基本思想如图1所示,其中,H是分类线,实心方块和实心圆分别代表样本的正负两类,H1和H2分别是过各类样本中离分类线最近且平行于H的分类间隔。支持向量机要求,H能将训练样本完全分开,并且保证分类间隔最大。
  在实际应用中遇到的很多情况都是多分类问题,比如本文中根据学生信息对学生进行的分类。构造多分类的方法目前主要有“一对多”SVM分类、“一对一”SVM分类、“有向无环图”[5]SVM分类等。
  二、支持向量机的学生评价实例
  利用山东省某高校计算机学院学生专业课信息,包括学生的基本信息,学生的行为特征(包括出勤率,学习态度,作业提交情况,素质得分)和学生成绩(笔试成绩,上机成绩)。取200个同学的信息作为训练集样本,那么对每一个同学来说,其数据规模是16维,如果所有样本维数都参与计算,其数据规模高达3200个多,而这仅仅是对于同一所学校某年级来说,如果对一个地区高校学生进行分析呢,计算量更是相当之大。利用自组织特征映射网络聚类方法对200个学生样本进行聚类。
  首先,根据同一个班中的学生基本情况大体都是类似的,我们暂且忽略掉,只考虑学生的行为特征和学生的成绩,根据学生行为特征将该样本集聚为3类(90<优<100,70<良<90,60<中<70),据学生成绩将学生聚为4类(90<优<100分,80<良<90,60<中<70,0<差<60),那么这200个样本就被聚为34=12类。聚类结果如表1所示:
  表中的两位数字中,首位代表学生行为特征,次位代表学生成绩。比如类别号00,代表学生行为得分是优,成绩得分也是优。通过表1可以看出各子类聚集的样本数差别比较大,具体说明如下:
  (1)样本数为0或者很少。如03类型,出现的概率为0,说明学生行为特征得分在90分以上而学生成绩不及格的同学不存在;
  (2)样本数多。如11类型出现的概率大,说明学生行为特征得分在80分以上90分以下的同学,其学习成绩也不会太低。
  样本数多的子类客观上反映了学生的行为特征和学生成绩有一定的联系,应作为典型的子类模式。而又考虑到训练样本集的等级全面性,因此我们将类别号23也作为一个子类模式,由此从12类聚类结果中筛选出6个子类模式如表1所示(类别1到类别6)。
  三、实例分析验证
  为分析上述6个子类模式之间的显著性差异,利用160个学生样本(6个子模式涉及的样本数)使用SPSS软件进行方差检验,表2为方差检验结果(取默认值0.05)。
  检验结果表明6个子类模式间具有显著性差异。这说明具有200个数据的样本用7维特征描述之后,子类间的差异被显著性的体现出来,每个子类都具有鉴别度,进一步验证了前面聚类策略及聚类结果的合理性。
  以下给出了采用不同算法得到的预测分类准确率和训练时间比较结果:
  实验结果显示,利用聚类之后的训练样本建训练模型,对未知样本训练精度有所提高,并且训练时间也相对提高,这说明本文提出的方法是可行的。
  四、总结
  在当今素质教育体制下要求学生德智体全面发展,对学生的评价如果单纯考虑考试成绩,那就是片面的,并不能真正起到帮助学生的目的。因此要想使学生的能力得到有效的提高,教师除了要教好书本知识之外,更不能忽视对学生心理活动的指导,只有这样才能达到双赢的效果。而对于学生数据比较多的情况,如果所有的数据都一一分析势必会费时费力,效率也不高。本文提出的这种基于聚类策略的支持向量机分类方法,不仅能对学生评价做到合理的分类,更能简化数据样本,提高效率提高分类预测率,对日后学校的教学工作将会起到很大的帮助作用。
  参考文献:
  [1]李倩.美国大学教师教学评价研究—以MIT为例[J].大连理工大学,2008:3-5.
  [2]肖远军.CIPP教育评价模式探析[J].教育科学,2003,03:42-45.
  [3]中译本,李国正等译.《支持向量机导论》[M].北京电子工业出版社,2003:1-139.
  [4]邓乃扬,田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出版社,2004.
  [5]Platt J.C.,Cristianini N.,and Shawe-Taylor J.,”Large margin DAGs for multiclass classification,”in Advance in Neurua Information Processing Systems.Cambridge,MA:MIT Press,2000,vol.12,PP.547-553.
其他文献
环境是孩子隐形的老师,对孩子的影响不可小觑。区角活动是在开放教育理念的影响下产生的,最能体现幼儿的价值,在幼儿教育中占有非常重要的地位。幼儿园良好的区角活动环境能为幼
【正】 增加工业产品的品种,是我国社会主义经济建设中一项具有战略意义的任务。工业产品品种是否齐全,质量是否优良,是衡量一个国家经济发展水平和科学技术水平的一个重要标
<正> 秦牧在《讽刺诗园地的新花束》(《文汇月刊》84年1期)一文中,结合黄雨的诗作,分析了讽刺诗的艺术魅力: “嬉笑怒骂,皆成文章”。幽默,常常是智慧和激情的结晶。而讽刺,又常常是鞭挞和指责的升华。幽默和讽刺,可以有多种多样的形式,因而它的应用范围,也可以是相当广泛的。黄雨的讽刺诗,大抵以物喻人,这使得
【正】 湖北省哲学学会逻辑组,对有无辩证概念和辩证判断的问题组织了一次讨论会。有一种意见认为:人类的逻辑思维是发展的,有初级阶段和高级阶段的不同,因此思维形式也就不
【正】 这里要着重谈的是王船山的哲学思想。王船山的历史任务是反对宋明道学。道学从唐代的韩愈就已开始,逐渐发展到朱熹才达到顶峰。朱熹的哲学体系是客观唯心主义的。他的
【正】 关于我国历史上的农民战爭在推动社会发展中所起的作用問題,也就是通常說的农民战争的动力作用問題,历史学界是有不同的看法的。有些同志認为:“农民战爭的动力作用,
在教学完《惊弓之鸟》一课后,我们认识了善于观察,善于思考,并能把看到的听到的和自己的实践经验结合起来进行思考的射箭能手——更赢。在教学这一课快要结束时,我让同学们谈谈学
本文通过分析保定市困难群体就业难的原因,借鉴格莱珉银行模式和美国个人发展帐户的宝贵经验,给出了保定市建设社区银行来促进困难群体就业的几点启示。
“小刘,走一个,都是兄弟,干了。”马处长顺手把鼓起的红包塞进公文包里,“你看你,这么惦记着老哥我,其它的不说,干了。”又一杯下肚。马处长眼前一亮:“我看那副处长的位置就老弟你合适,我推荐你上去吧。”老刘赶紧迎上去说:“是处长领导的好,跟着处长就好。” ……  “小刘,诗歌会友,儒者风范,”陈处长语重心长地说到,“你人缘好,又懂艺术,自身修养好,政绩也在咱们处也很突出,副处这职,我就推荐你。”老刘一
中职班主任面对的中职生是一个特殊的群体,甚至被人们认为是“选剩下的烂苹果”,他们敏感、自尊心强、心理承受能力差,但是他们思想活跃,动手能力强。如何帮助中职生学习好一技之