基于数据挖掘技术的五年制高职录取

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:stanley45518501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:录取分数一直是衡量生源质量的主要标准,该文旨在以某五年制高职校学生录取分数与在校成绩表现为研究对象,运用基于Microsoft SQL Server Analysis Service平台的关联规则数据挖掘方法,分析录取分数与在校表现的内在关联,旨在了解入学成绩对在校成绩的影响程度,为分析五年制高职教学质量评价体系提供参考依据。
  关键词:录取分数;成绩;关联规则
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)26-0010-02
  1 前言
  江苏省五年一贯制制高等职业教育经过10余年发展,取得了令人瞩目的成绩,目前已进入由规模发展到内涵发展的关键时期。五年制高职教育的突出优势在于贯通中、高职教育,整体设计和统筹安排学生的知识、能力、素质以及技能的训练和培养,在得到社会普遍认可的同时,低于普高录取分数线的生源在进入高职院校后,能否符合五年制高职教育培养要求,能否最终成为适应和满足地方区域经济社会发展要求的高素质技能型人才,一直不乏争议之声。本文拟突破传统数据分析方式,应用基于Microsoft SQL Server Analysis Service平台的数据挖掘技术,根据信息化平台积累的原始数据,分析五年制高职学生录取分数与在校成绩之间的相关性,揭示隐藏在其中,但又有潜在有价值的信息。
  2 数据挖掘关联规则
  数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,因此数据挖掘又称作知识发现,由于关联规则可以有效发现数据之间的重要联系,且规则易于解释和理解,因而关联规则挖掘迅速成为数据挖掘研究的重要分支,它能从数据背后发现事物之间可能存在的关联或者联系。举个例子,顾客在超市买床上用品,其中30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也就是说很大一部分顾客会同时购买床单和枕套,那么对于商场来说,可以把床单和枕套放在同一个购物区,那样既能方便顾客购物,也能增加枕套的销量。由于下面介绍关联规则的一些重要概念以及如何从数据中挖掘出关联规则。
  关联规则:用来发现在同一事件中出现的不同项的相关性,D表示事务数据库,关联规则的挖掘任务就是找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度和最小置信度的规则A—>B,关联规则挖掘可以大致分为两步:
  1)从事务数据库D中找出频繁项目集;
  2)从频繁项目集合中生成满足最低置信度的关联规则。
  最出名的关联规则挖掘算法是Apriori算法,它是后来绝大多数关联规则挖掘算法的基础。Apriori性质的内容是频繁项集的所有非空子集也都必须是频繁的。Apriori算法将发现关联规则的过程分为:第一,通过迭代检索出所有频繁项集,即支持度不低于用户设定的阈值的项集;第二,利用第一步中的频繁项集构造出满足用户最小置信度的规则。
  3 数据采集与预处理
  研究的数据以2011年和2013年两年某五年制高职校683名无锡录取的新生的中考分数和在校课程成绩为原始数据。这些数据来自于异构数据库,而且比较“脏”,存在杂质、噪声、不一致、不规范、遗漏等情况,需要根据分析主题进行ETL(Extract/Transformation/Load),即从数据源抽取出所需的数据,经清洗、转换等,按照预先定义的数据仓库建模,为数据挖掘构建纯净分析环境。本次数据处理工作分录取分数和在校成绩两方面。
  1)录取分数:
  数据来源:“录取分数”是指学生的入学考试成绩,五年一贯制高职学校招生的对象是初中生,录取分数即中考成绩。因江苏各地中考总分不同,且部分地区录取成绩没有电子档案,不易采集,为保证研究的可行性和准确性,数据采自《无锡市高级中等学校招生录取名册》,以2011级和2013级别两届无锡本地生源为对象。
  数据转换:无锡市两年中考总分不同,各科总分也有差异,例如语文总分为130,体育总分为35,需统一将采集原始数据转换为百分制。
  2)在校成绩
  分析对象涉及某校所有高职专业,课程性质不同,学分不同,为了能较直观且客观地衡量学生成绩表现,笔者将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,再根据课程性质不同,划分为公共课平均学分绩和专业课平均学分绩,以便体现职业院校学生的学习特征
  再按照百分制分数,将“90~100”定义为优秀,80~90定义为良好,70~80定义为中等,60~70定义为合格,60以下为不合格,最终构建出服务于本次分析的数据仓库。
  
  图1 录取分数与在校成绩相关性分析数据仓库
  4 学生录取分数与在校成绩相关性数据挖掘分析
  1)项集分析
  将预处理后的数据库导入Microsoft SQL Server Analysis Services项目进行数据挖掘的关联分析,得到项集如图2所示:
  
  图2 项集图
  图2说明支持“体育=优秀”的学生有419人,支持“平均学分绩=良好,公共课平均学分绩=良好”为247人。
  2)规则分析
  
  图3 “语文”规则
  以语文为先导为例,入学语文成绩优秀与否都有大概率趋向在校成绩中等。以外语成绩为先导,若仅仅外语成绩较好,而其他科目中等,则也有大概率趋向在校成绩中等。若以数学成绩为先导,若入学数学成绩优秀,其他科目优秀与否都有大概率趋向在校成绩优秀。若以入学总分为先导,入学总分和数学均偏低的学生在校各门课程成绩差强人意。   3)依赖关系网络图分析
  初始关系图错综复杂,为了更直观显示,保留较强关联得到图4。
  
  图4 依赖关系网络图
  由图可见,入学总分中等或者良好的学生在专业课学习上,取得优秀或者中等成绩的概率各半;入学总分偏低的学生往往在校表现也不理想;仅仅外语优秀或者语文良好的学生专业课成绩反而不理想;理化成绩优秀或者良好的学生,专业课成绩较好。
  5 结论
  上述研究以“五年制高职学生录取分数与在校成绩相关性”为研究对象,以某校2011年和2013年683名无锡录取新生的中考分数和在校课程成绩为原始数据,基于Microsoft SQL Server Analysis Services项目平台进行关联规则挖掘,取得研究结论如下:
  1)两届无锡学生在五年制高职院校学习期间,成绩总体表现合格率为100%,其中达到良好及以上的比例高达58.4%,仅1.4%的学生为合格(平均学分绩60~70)。说明绝大多数学生符合五年制高职教育的培养标准,在校成绩表现较好。
  2)中考各个科目对高职阶段课程学习影响程度不同,被语文和外语成绩拖累入学总分的学生,如果数学或理化成绩较好,在专业课程学习阶段,取得优秀成绩的概率达到70%以上;数学成绩较好的新生,不论其他课程成绩是否优秀,专业课程成绩往往较好;入学体育成绩优秀的学生在校总体成绩较好。
  3)学生录取分数确实在一定程度上影响在校成绩,但相关性并不强。例如总分仅在合格水平的新生在高职院校的各科成绩也偏低,但总分达到中等及以上水平的学生入校后均有大概率取得优秀或良好成绩。
  参考文献:
  [1] 蒋留生.五年制高职和三年制高职质量与效益状况的对比研究[J].徐州师范大学学报:哲学社会科学版,2012(6):151-156.
  [2] 谢邦昌.SQL Server 2008 R2数据挖掘与商业智能基础及高级案例实战[M].北京:中国水利水电出版社,2011:3-8.
  [3] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M].2版. 范明,孟小峰,译.北京:机械工业出版社,2007:3-17.
  [4] 张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2011:2-5.
其他文献
摘要:移动通信领域具有理论深、知识更新快、工程性强等特点,相应地,《移动通信》课程也具有这些特点。而以前的教学内容无法满足当前社会对人才培养的需求,为适应卓越工程师培养计划要求,以移动通信行业和技术发展趋势为指导,在教学内容、实验、实训以及参加竞赛等四个方面进行教学改革。在2015年的第二届“大唐杯”全国大学生移动通信技术大赛全国总决赛中,我校学生荣获特等奖一个,一等奖一个,成绩位列全国高校第一。
摘要:信息系统的出现为高校管理提供了巨大的便捷,它也是数字化校园的一部分。随着时间的推移和系统之间存在的历史原因,海量数据的涌现引起了人们对数据质量和数据整合的思考。由于信息系统的使用效果直接与数据质量相关,而且不同的系统之间存在“信息孤岛”,导致数据不一致,无法达到信息共享。因此,需要对现有数据的质量进行分析,提出相关的基本概念;并以上海海洋大学数字化校园二期建设为例,展现高校信息系统的数据整合
摘要:《简·爱》,夏洛蒂·勃朗特的一部伟大的作品,女主人公简·爱追求自由、平等的精神体现出了强烈的女性意识,敢于对传统制度说“不”的坚强态度更是追求女性独立意识的典范,简·爱的曲折人生及其对待生活的态度使其成为英国维多利亚时代全新的女性,也给当代女性带来了深刻的启发。但由于时代的局限,简·爱的抗争过程中又不时流露出妥协与退让的态度,这不免让人觉得稍许遗憾。  关键词:简·爱 女性意识 抗争 妥协 
摘要:在介绍虚拟化的概念和起源发展的基础上,阐述了虚拟化的主要应用方向,详细论述了各种虚拟化技术的概念、原理和方法,尤其着重介绍了基于微软Hyper-V的服务器虚拟技术,应用程序虚拟技术,呈现虚拟技术,桌面虚拟技术等。  关键词:虚拟化;Hyper-V;服务器虚拟技术;应用程序虚拟技术;呈现虚拟技术;桌面虚拟技术  中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)05-
摘要:为提高列车运行调度的智能性,分析了列车运行调度活动,采用agent技术建立了具有学习机制的列车运行调度agent结构,学习机制包含自学习机制和它学习机制,并详细论述了学习机制。通过采用原京沪高速铁路数据建立仿真平台对具有学习机制的列车运行调度agent进行了验证,结果表明,采用具有学习机制的列车运行调度agent可提高列车运行调度系统的智能性,调度决策所用时间缩短一半左右。  关键词:age
近期阅读了美国著名领导力学者马克斯维尔的《领导力21法则》一书,感触颇深。这本书是领导力研究的扛鼎之作,也是各级领导锻炼领导力的指南针。该书梳理了领导力的21个法则,既有理论高度,也有操作借鉴意义。21条法则生动实用,从“盖子法则”到“亲和力法则”到“传承法则”,每一个法则都是领导力研究的成果结晶,也是领导力研究聚焦的最核心问题,深刻反映了马克斯维尔领导力研究的非凡智慧。  该书对教育教学领导力的
关键词:游戏化;视点;空间设计;导航设计  中图分类号: G423 文献标志码:A 文章编号:1673-8454(2019)18-0001-06  游戏化即使用基于游戏的机制、美学和游戏思想来吸引用户、激励行为、促进学习和解决问题[1]。学习者不是通过玩游戏学习,而是像玩游戏一样学习教学内容。游戏化设计的目的是服务于学习者,让学习者获得更好的学习体验,有更好的学习效果[2]。  
摘 要:针对高职物联网专业教师信息化能力处于中等水平、教学效果不佳的现状,作者提出了基于TPACK模式教师信息化能力提升研究,首先分析高职物联网专业教师信息化能力存在的問题,其次搜集教师和学生的TPACK能力问卷调查,再次分析和评估教师TPACK能力分值和形成原因,最后构建分级分层信息化培训、完善教师实践制度以及加强教学方法和技术知识等培养方式,提升高职物联网专业教师TPACK能力,提高教学效果。
讀过故事后,请小朋友们说一说,你觉得服装可以反映我们的心情吗?你最喜欢的是什么样式的衣服?在什么情境下穿它适合呢?