关联规则算法在新疆高职院校录取决策中的应用研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:tp13140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文以研究新疆高职院校新生报到率为目的,采用关联规则算法对新生的基本信息进行数据挖掘,挖掘出新生信息与学生报到率之间的有效规则,并对新生的报到情况进行分类预测,对提高新生报到率具有重要现实意义。
  关键词:关联规则算法;新疆高职院校;录取决策
  中图分类号:TP311.12 文献标识码:A文章编号:1007-9599 (2011) 15-0000-02
  The Research Application of Association Rules Algorithm in XinJiang College Admit Decision
  Lu Haiyan,Sha Hongmei
  (Yili Vocational Technical College,Yining835000,China)
  Abstract:The purpose of this paper is to research the report rate of collage students in XinJiang.The algorithm of association rules was used to mine knowledge in student information databases,with that obtain the rules about factors which influence student’s report rate,and predicted the new classification of the new case report.It has important realistic significance to improve the report rate.
  Keywords:Association Rules algorithm;XinJiang college;Admit Decision
  每年9月,各新疆高职院校都对新生报到率关心备至,因为新生报到率偏低会影响学院招生计划的完成,造成教学资源的极大浪费。将数据挖掘技术中的关联规则算法应用于录取决策中,挖掘影响学生报到率的规则,预测考生报到可能性,可以为高院院校录取决策提供有效帮助。
  一、关联规则的定义
  关联规则挖掘算法是一种在许多数据中找出隐藏的关联规则的方法。关联规则常常用一个蕴涵式来表示,如“啤酒=>尿布”。
  一个事务数据库中的关联规则挖掘可以描述如下[1]:
  设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tm}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。
  定义1-1设I1 I,项目集(Itemset)I1在数据集D上的支持度(Support)是包含I1的事务在D中所占的百分比。
  定义1-2一个定义在I和D上的形如I1=>I的关联规则的置信度(Confidence)是指包含I1和I2的事务数与包含I的事务数之比。其中I1,I2 I,I1∩I2= 。
  关联规则就是支持度和置信度分别满足用户给定阈值的规则。
  二、关联规则挖掘的一般过程
  关联规则挖掘就是通过用户指定的最小支持度,在全部事务数据库中挖掘出满足支持度不小于最小支持度的频繁项目集,再通过用户指定的最小置信度,在全部频繁项目集中挖掘出置信度不小于最小置信度的强关联规则。关联规则挖掘过程由这两部分共同组成。在这两部分中,关联规则挖掘是否成功主要取决于第一部分,即挖掘频繁项目集。
  三、挖掘影响新生报到率的规则
  以新疆某高职学院新生注册信息库中的样本数据为例,挖掘新生基本属性(性别、考试语种、考生类别、毕业类别、科类、考生生源、高考成绩)与学生报到之间的规则。并根据此规则制定出有效的录取决策,指导录取人员进行录取。经过数据清洗,得到有效数据2989条。
  根据近几年该学院的新生报到率,将最小支持度设为0.01,最小置信度设为54%。
  表1.各属性人数
  属性
  录取人数 报到人数
  男性 1288 774
  女性 1701 929
  汉语言 1454 737
  民语言 1535 966
  城镇应届 893 458
  城镇历届 296 219
  农村应届 1268 642
  农村历届 532 384
  普通高考 2631 1412
  “三校生”高考 358 291
  理科 2015 1105
  文科 974 598
  生源:疆内外地 2123 1193
  生源:疆内本地 605 404
  生源:疆外 261 106
  考分:100-199 204 156
  考分:200-299 685 401
  考分:300-399 1973 1081
  考分:400-499 126 64
  考分:500-599 1 1
  (一)找出所有频繁项目集
  (1)根据Apriori算法,在所有报到学生信息中挑选支持度不小于最小支持度的项目集组成1-频繁项目集L1。L1={性别∈{男,女},考试语种∈{汉语言,民语言},考生类别∈{城镇应届,城镇历届,农村应届,农村历届},毕业类别∈{高中,三校},科类∈{文,理}、考生生源∈{疆内外地,本地,疆外},高考成绩∈{[100-199],[200,299],[300,399],[400-499]}。为了理解方便,将以上集合简写为{男,报到}、{女,报到}、{汉语言,报到}、{民语言,报到}、{城镇应届,报到}、{城镇历届,报到}、{农村应届,报到}、{农村历届,报到}、{高中,报到}、{三校,报到}、{理,报到}、{文,报到}、{疆内外地,报到}、{本地,报到}、{疆外,报到}、{100≦高考成绩<200,报到}、{200≦高考成绩<300,报到}、{300≦高考成绩<400,报到}、{400≦高考成绩<500,报到}。(2)根据Apriori的改进算法-Partition算法,将学生数据库进行划分,每块包含两个属性或一个属性。据此,将学生数据库划分为含有项目{性别,授课语言}、{考生类别,毕业类别}、{科类,考生生源}和{高考成绩}的四个块。根据块中包含的属性,将上一步计算出的项集依照块的属性进行合并,组合成每块的频繁项集。计算合并后的项集的支持度,将支持度不小于0.01的项集挖掘出来。(3)重复(2),两两进行分块。此时学生数据库被分为含有{性别,授课语言,考生类别,毕业类别}和含有{科类,考生生源,高考成绩}的两块。同样的,将上一步中计算出的项集依据分块内容再进行组合,计算它们的支持度。将支持度不小于0.01的项集挖掘出来。(4)重复(3),此时,只剩下一个块,包含了所有的属性值。此时,这个块的频繁项目集就是最终的频繁项目集。
  (二)计算频繁项目集对应的规则的置信度
  (1)confidence{男,民语言,农村历届,三校,理,本地,200≦高考成绩<299}=>报到=91%;(2)confidence{男,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=45%;(3)confidence{女,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=44%;(4)confidence{男,汉语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=48%;(5)confidence{男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=65%;(6)confidence{女,汉语言,農村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(7)confidence{女,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(8)confidence{女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到=58%;(9)confidence{女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=58%;(10)confidence{男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=54%;(11)confidence{女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=69%;(12)confidence{女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=63%;(13)confidence{女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到=77%。
  (三)生成强关联规则
  根据事先确定的最小置信度50%,得到8个强关联规则。分别为:(1){男,民语言,农村历届,三校,理,本地,200≦高考成绩<300}=>報到;(2){男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到;(3){女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到:(4){女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(5){男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到:(6){女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(7){女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(8){女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到。
  (四)结果说明及验证
  根据以上8个强关联规则,可知基本信息与规则左边属性值相同的学生,报到可能性大。将此规则应用于今后的录取现场时,录取人员可在同等条件下可优先录取具有以上属性值的学生,以提高新生率。
  四、关联规则挖掘的分类预测
  在关联模型中,如果列用于输入,那么该列的值只能在频繁项集中和关联规则的左边使用。如果列用于预测,则可以在频繁项集中以及关联规则的左边和右边使用该列的状态。如果列是逻辑型的,则它的状态可以出现在频繁项集中及规则的右边。
  在新生报到表中,“是否报到”列的值是逻辑型,可以出现在频繁项集中及规则的右边,因此,“是否报到”列的状态就可以用于预测。例如,有一个频繁项目集{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’,是否报到=‘是’},和由此产生的一个强关联规则{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’}=>报到,那么,可以预测出,性别为男性,考试语种为民语言,毕业类别为三校的新生将会来报到,或者说,他前来报到的可能性非常大。
  利用关联规则算法进行关联推测的方法:(1)给定一系列项,找出左边匹配给定项集或者任何给定项集的子集的所有规则。应用这些规则来获取推荐列表。(2)如果没有合适的规则,或者可推荐的项太小,则应用边缘统计学来预测和返回出现最频繁的N个项。(3)基于概率对来自步骤1和步骤2的项进行排序。
  根据以上方法,本文对该院2011级录取的新生数据进行了深入分析。将出现频率较高的项集预测为“会报到”,其它项集预测为“不会报到”,将所有频繁项集按概率大小顺序挖掘出来。将此挖掘结果应用于录取现场,可以指导录取人员按此顺序录取考生,提高考生的报到率。
  五、结论
  通过关联规则算法,在已有学生数据库中挖掘出学生信息与报到之间的规则,再将此规则应用于报考考生数据库,预测哪类考生报到可能性高,可以为高职院校录取人员提供有用信息,有效提高新生报到率。
  参考文献:
  [1]毛国君,段立娟,王实,石云.数据挖掘原理与算法[M].北京:清华大学出版社,2005,11-65
  [2]于莉.基于高校学生信息库的数据挖掘[D].内蒙古:内蒙古大学,2004
  [3]安淑芝等.数据仓库与数据挖掘[M].北京:清华大学出版社,2005,2-16
  [4]彭松涛.数据挖掘技术在高校就业管理系统中的应用研究[D].浙江:浙江工业大学,2005
  [5]刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008
  [6]谢长卫.高校学生信息的数据挖掘研究[D].安徽:安徽理工大学,2008
  [7]李万武.基于贝叶斯理论的数据挖掘在高校信息管理的应用研究[D].黑龙江:哈尔滨工程大学,2005
  [作者简介]芦海燕(1974-),女,新疆伊宁市人,讲师,工程硕士,主要研究方向:数据挖掘、计算机辅助设计;沙红梅(1972-),女,新疆伊宁市人,助理讲师,本科,主要研究方向:计算机应用。
  [基金项目]伊犁职业技术学院2011年度科研计划项目(yzyxm2011004)
  
其他文献
物联网是现代信息技术发展到一定阶段后出现的一种聚合性应用与技术提升,将各种感知技术、现网络技术和人工智能与自动化技术聚合及集成应用。物联网技术在现代物流管理中的应
摘要:手持移动设备和无线通信技术的快速发展促进了移动学习应用研究的深入,使得学习者利用手持式设备在任何时间、任何地点开展学习成为可能。本文将移动学习模式应用于中等职业学校数控专业实习环节,提出了基于手持式设备的数控机床学习系统,本文详细分析了该系统的设计与实现过程。  关键词:手持式设备移动学习;Android  中图分类号:TG519.1 文献标识码:A 文章编号:1007-9599 (2012
介绍了直接转矩控制的原理和仿真模型搭建,从基本原理、结构特点、实现策略等方面对其进行了详细论述。通过对转矩调节和磁链调节的比较,分析了传统的直接转矩控制中存在的不
本文从观念与效益的密切关系出发,论述旧的传统观念的种种表现及对图书馆改革与发展的影响,更新改变旧传统观念的必要性与迫切性,论述提高图书馆效益优化管理必须树立和强化的几
在简单阐述国内电网建设及当前电力设备技改工作现状的基础上,重点介绍了以全寿命周期成本为核心的大修技改可行性分析方式,并以某地区5台断路器的方案选择为例,对如何有效运用
为向供需双方提供更好的服务,在每届全国制药机械博览会期间,中国制药装备行业协会都会举办各种论坛、技术交流讲座。
简要介绍了状态监测和状态检修的基本概念和必要性,探讨了六氟化硫半封闭式组合电器(HGIS)一二次设备状态监测与检修应用与实践技术方面的内容。
介绍了自动化系统的基本概念和结构,对“IEC61850标准”在变电站自动化系统设计与实现中的应用情况进行了分析。标准化有助于实现自动化系统数据处理的统一和通信畅通,对变电站