论文部分内容阅读
摘要:该文以研究新疆高职院校新生报到率为目的,采用关联规则算法对新生的基本信息进行数据挖掘,挖掘出新生信息与学生报到率之间的有效规则,并对新生的报到情况进行分类预测,对提高新生报到率具有重要现实意义。
关键词:关联规则算法;新疆高职院校;录取决策
中图分类号:TP311.12 文献标识码:A文章编号:1007-9599 (2011) 15-0000-02
The Research Application of Association Rules Algorithm in XinJiang College Admit Decision
Lu Haiyan,Sha Hongmei
(Yili Vocational Technical College,Yining835000,China)
Abstract:The purpose of this paper is to research the report rate of collage students in XinJiang.The algorithm of association rules was used to mine knowledge in student information databases,with that obtain the rules about factors which influence student’s report rate,and predicted the new classification of the new case report.It has important realistic significance to improve the report rate.
Keywords:Association Rules algorithm;XinJiang college;Admit Decision
每年9月,各新疆高职院校都对新生报到率关心备至,因为新生报到率偏低会影响学院招生计划的完成,造成教学资源的极大浪费。将数据挖掘技术中的关联规则算法应用于录取决策中,挖掘影响学生报到率的规则,预测考生报到可能性,可以为高院院校录取决策提供有效帮助。
一、关联规则的定义
关联规则挖掘算法是一种在许多数据中找出隐藏的关联规则的方法。关联规则常常用一个蕴涵式来表示,如“啤酒=>尿布”。
一个事务数据库中的关联规则挖掘可以描述如下[1]:
设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tm}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。
定义1-1设I1 I,项目集(Itemset)I1在数据集D上的支持度(Support)是包含I1的事务在D中所占的百分比。
定义1-2一个定义在I和D上的形如I1=>I的关联规则的置信度(Confidence)是指包含I1和I2的事务数与包含I的事务数之比。其中I1,I2 I,I1∩I2= 。
关联规则就是支持度和置信度分别满足用户给定阈值的规则。
二、关联规则挖掘的一般过程
关联规则挖掘就是通过用户指定的最小支持度,在全部事务数据库中挖掘出满足支持度不小于最小支持度的频繁项目集,再通过用户指定的最小置信度,在全部频繁项目集中挖掘出置信度不小于最小置信度的强关联规则。关联规则挖掘过程由这两部分共同组成。在这两部分中,关联规则挖掘是否成功主要取决于第一部分,即挖掘频繁项目集。
三、挖掘影响新生报到率的规则
以新疆某高职学院新生注册信息库中的样本数据为例,挖掘新生基本属性(性别、考试语种、考生类别、毕业类别、科类、考生生源、高考成绩)与学生报到之间的规则。并根据此规则制定出有效的录取决策,指导录取人员进行录取。经过数据清洗,得到有效数据2989条。
根据近几年该学院的新生报到率,将最小支持度设为0.01,最小置信度设为54%。
表1.各属性人数
属性
录取人数 报到人数
男性 1288 774
女性 1701 929
汉语言 1454 737
民语言 1535 966
城镇应届 893 458
城镇历届 296 219
农村应届 1268 642
农村历届 532 384
普通高考 2631 1412
“三校生”高考 358 291
理科 2015 1105
文科 974 598
生源:疆内外地 2123 1193
生源:疆内本地 605 404
生源:疆外 261 106
考分:100-199 204 156
考分:200-299 685 401
考分:300-399 1973 1081
考分:400-499 126 64
考分:500-599 1 1
(一)找出所有频繁项目集
(1)根据Apriori算法,在所有报到学生信息中挑选支持度不小于最小支持度的项目集组成1-频繁项目集L1。L1={性别∈{男,女},考试语种∈{汉语言,民语言},考生类别∈{城镇应届,城镇历届,农村应届,农村历届},毕业类别∈{高中,三校},科类∈{文,理}、考生生源∈{疆内外地,本地,疆外},高考成绩∈{[100-199],[200,299],[300,399],[400-499]}。为了理解方便,将以上集合简写为{男,报到}、{女,报到}、{汉语言,报到}、{民语言,报到}、{城镇应届,报到}、{城镇历届,报到}、{农村应届,报到}、{农村历届,报到}、{高中,报到}、{三校,报到}、{理,报到}、{文,报到}、{疆内外地,报到}、{本地,报到}、{疆外,报到}、{100≦高考成绩<200,报到}、{200≦高考成绩<300,报到}、{300≦高考成绩<400,报到}、{400≦高考成绩<500,报到}。(2)根据Apriori的改进算法-Partition算法,将学生数据库进行划分,每块包含两个属性或一个属性。据此,将学生数据库划分为含有项目{性别,授课语言}、{考生类别,毕业类别}、{科类,考生生源}和{高考成绩}的四个块。根据块中包含的属性,将上一步计算出的项集依照块的属性进行合并,组合成每块的频繁项集。计算合并后的项集的支持度,将支持度不小于0.01的项集挖掘出来。(3)重复(2),两两进行分块。此时学生数据库被分为含有{性别,授课语言,考生类别,毕业类别}和含有{科类,考生生源,高考成绩}的两块。同样的,将上一步中计算出的项集依据分块内容再进行组合,计算它们的支持度。将支持度不小于0.01的项集挖掘出来。(4)重复(3),此时,只剩下一个块,包含了所有的属性值。此时,这个块的频繁项目集就是最终的频繁项目集。
(二)计算频繁项目集对应的规则的置信度
(1)confidence{男,民语言,农村历届,三校,理,本地,200≦高考成绩<299}=>报到=91%;(2)confidence{男,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=45%;(3)confidence{女,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=44%;(4)confidence{男,汉语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=48%;(5)confidence{男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=65%;(6)confidence{女,汉语言,農村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(7)confidence{女,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(8)confidence{女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到=58%;(9)confidence{女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=58%;(10)confidence{男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=54%;(11)confidence{女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=69%;(12)confidence{女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=63%;(13)confidence{女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到=77%。
(三)生成强关联规则
根据事先确定的最小置信度50%,得到8个强关联规则。分别为:(1){男,民语言,农村历届,三校,理,本地,200≦高考成绩<300}=>報到;(2){男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到;(3){女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到:(4){女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(5){男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到:(6){女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(7){女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(8){女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到。
(四)结果说明及验证
根据以上8个强关联规则,可知基本信息与规则左边属性值相同的学生,报到可能性大。将此规则应用于今后的录取现场时,录取人员可在同等条件下可优先录取具有以上属性值的学生,以提高新生率。
四、关联规则挖掘的分类预测
在关联模型中,如果列用于输入,那么该列的值只能在频繁项集中和关联规则的左边使用。如果列用于预测,则可以在频繁项集中以及关联规则的左边和右边使用该列的状态。如果列是逻辑型的,则它的状态可以出现在频繁项集中及规则的右边。
在新生报到表中,“是否报到”列的值是逻辑型,可以出现在频繁项集中及规则的右边,因此,“是否报到”列的状态就可以用于预测。例如,有一个频繁项目集{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’,是否报到=‘是’},和由此产生的一个强关联规则{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’}=>报到,那么,可以预测出,性别为男性,考试语种为民语言,毕业类别为三校的新生将会来报到,或者说,他前来报到的可能性非常大。
利用关联规则算法进行关联推测的方法:(1)给定一系列项,找出左边匹配给定项集或者任何给定项集的子集的所有规则。应用这些规则来获取推荐列表。(2)如果没有合适的规则,或者可推荐的项太小,则应用边缘统计学来预测和返回出现最频繁的N个项。(3)基于概率对来自步骤1和步骤2的项进行排序。
根据以上方法,本文对该院2011级录取的新生数据进行了深入分析。将出现频率较高的项集预测为“会报到”,其它项集预测为“不会报到”,将所有频繁项集按概率大小顺序挖掘出来。将此挖掘结果应用于录取现场,可以指导录取人员按此顺序录取考生,提高考生的报到率。
五、结论
通过关联规则算法,在已有学生数据库中挖掘出学生信息与报到之间的规则,再将此规则应用于报考考生数据库,预测哪类考生报到可能性高,可以为高职院校录取人员提供有用信息,有效提高新生报到率。
参考文献:
[1]毛国君,段立娟,王实,石云.数据挖掘原理与算法[M].北京:清华大学出版社,2005,11-65
[2]于莉.基于高校学生信息库的数据挖掘[D].内蒙古:内蒙古大学,2004
[3]安淑芝等.数据仓库与数据挖掘[M].北京:清华大学出版社,2005,2-16
[4]彭松涛.数据挖掘技术在高校就业管理系统中的应用研究[D].浙江:浙江工业大学,2005
[5]刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008
[6]谢长卫.高校学生信息的数据挖掘研究[D].安徽:安徽理工大学,2008
[7]李万武.基于贝叶斯理论的数据挖掘在高校信息管理的应用研究[D].黑龙江:哈尔滨工程大学,2005
[作者简介]芦海燕(1974-),女,新疆伊宁市人,讲师,工程硕士,主要研究方向:数据挖掘、计算机辅助设计;沙红梅(1972-),女,新疆伊宁市人,助理讲师,本科,主要研究方向:计算机应用。
[基金项目]伊犁职业技术学院2011年度科研计划项目(yzyxm2011004)
关键词:关联规则算法;新疆高职院校;录取决策
中图分类号:TP311.12 文献标识码:A文章编号:1007-9599 (2011) 15-0000-02
The Research Application of Association Rules Algorithm in XinJiang College Admit Decision
Lu Haiyan,Sha Hongmei
(Yili Vocational Technical College,Yining835000,China)
Abstract:The purpose of this paper is to research the report rate of collage students in XinJiang.The algorithm of association rules was used to mine knowledge in student information databases,with that obtain the rules about factors which influence student’s report rate,and predicted the new classification of the new case report.It has important realistic significance to improve the report rate.
Keywords:Association Rules algorithm;XinJiang college;Admit Decision
每年9月,各新疆高职院校都对新生报到率关心备至,因为新生报到率偏低会影响学院招生计划的完成,造成教学资源的极大浪费。将数据挖掘技术中的关联规则算法应用于录取决策中,挖掘影响学生报到率的规则,预测考生报到可能性,可以为高院院校录取决策提供有效帮助。
一、关联规则的定义
关联规则挖掘算法是一种在许多数据中找出隐藏的关联规则的方法。关联规则常常用一个蕴涵式来表示,如“啤酒=>尿布”。
一个事务数据库中的关联规则挖掘可以描述如下[1]:
设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tm}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。
定义1-1设I1 I,项目集(Itemset)I1在数据集D上的支持度(Support)是包含I1的事务在D中所占的百分比。
定义1-2一个定义在I和D上的形如I1=>I的关联规则的置信度(Confidence)是指包含I1和I2的事务数与包含I的事务数之比。其中I1,I2 I,I1∩I2= 。
关联规则就是支持度和置信度分别满足用户给定阈值的规则。
二、关联规则挖掘的一般过程
关联规则挖掘就是通过用户指定的最小支持度,在全部事务数据库中挖掘出满足支持度不小于最小支持度的频繁项目集,再通过用户指定的最小置信度,在全部频繁项目集中挖掘出置信度不小于最小置信度的强关联规则。关联规则挖掘过程由这两部分共同组成。在这两部分中,关联规则挖掘是否成功主要取决于第一部分,即挖掘频繁项目集。
三、挖掘影响新生报到率的规则
以新疆某高职学院新生注册信息库中的样本数据为例,挖掘新生基本属性(性别、考试语种、考生类别、毕业类别、科类、考生生源、高考成绩)与学生报到之间的规则。并根据此规则制定出有效的录取决策,指导录取人员进行录取。经过数据清洗,得到有效数据2989条。
根据近几年该学院的新生报到率,将最小支持度设为0.01,最小置信度设为54%。
表1.各属性人数
属性
录取人数 报到人数
男性 1288 774
女性 1701 929
汉语言 1454 737
民语言 1535 966
城镇应届 893 458
城镇历届 296 219
农村应届 1268 642
农村历届 532 384
普通高考 2631 1412
“三校生”高考 358 291
理科 2015 1105
文科 974 598
生源:疆内外地 2123 1193
生源:疆内本地 605 404
生源:疆外 261 106
考分:100-199 204 156
考分:200-299 685 401
考分:300-399 1973 1081
考分:400-499 126 64
考分:500-599 1 1
(一)找出所有频繁项目集
(1)根据Apriori算法,在所有报到学生信息中挑选支持度不小于最小支持度的项目集组成1-频繁项目集L1。L1={性别∈{男,女},考试语种∈{汉语言,民语言},考生类别∈{城镇应届,城镇历届,农村应届,农村历届},毕业类别∈{高中,三校},科类∈{文,理}、考生生源∈{疆内外地,本地,疆外},高考成绩∈{[100-199],[200,299],[300,399],[400-499]}。为了理解方便,将以上集合简写为{男,报到}、{女,报到}、{汉语言,报到}、{民语言,报到}、{城镇应届,报到}、{城镇历届,报到}、{农村应届,报到}、{农村历届,报到}、{高中,报到}、{三校,报到}、{理,报到}、{文,报到}、{疆内外地,报到}、{本地,报到}、{疆外,报到}、{100≦高考成绩<200,报到}、{200≦高考成绩<300,报到}、{300≦高考成绩<400,报到}、{400≦高考成绩<500,报到}。(2)根据Apriori的改进算法-Partition算法,将学生数据库进行划分,每块包含两个属性或一个属性。据此,将学生数据库划分为含有项目{性别,授课语言}、{考生类别,毕业类别}、{科类,考生生源}和{高考成绩}的四个块。根据块中包含的属性,将上一步计算出的项集依照块的属性进行合并,组合成每块的频繁项集。计算合并后的项集的支持度,将支持度不小于0.01的项集挖掘出来。(3)重复(2),两两进行分块。此时学生数据库被分为含有{性别,授课语言,考生类别,毕业类别}和含有{科类,考生生源,高考成绩}的两块。同样的,将上一步中计算出的项集依据分块内容再进行组合,计算它们的支持度。将支持度不小于0.01的项集挖掘出来。(4)重复(3),此时,只剩下一个块,包含了所有的属性值。此时,这个块的频繁项目集就是最终的频繁项目集。
(二)计算频繁项目集对应的规则的置信度
(1)confidence{男,民语言,农村历届,三校,理,本地,200≦高考成绩<299}=>报到=91%;(2)confidence{男,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=45%;(3)confidence{女,汉语言,城镇应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=44%;(4)confidence{男,汉语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=48%;(5)confidence{男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=65%;(6)confidence{女,汉语言,農村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(7)confidence{女,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到=46%;(8)confidence{女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到=58%;(9)confidence{女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=58%;(10)confidence{男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=54%;(11)confidence{女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=69%;(12)confidence{女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到=63%;(13)confidence{女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到=77%。
(三)生成强关联规则
根据事先确定的最小置信度50%,得到8个强关联规则。分别为:(1){男,民语言,农村历届,三校,理,本地,200≦高考成绩<300}=>報到;(2){男,民语言,农村应届,高中,理,疆内外地,300≦高考成绩<400}=>报到;(3){女,民语言,农村历届,高中,理,疆内外地,300≦高考成绩<400}=>报到:(4){女,汉语言,城镇应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(5){男,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到:(6){女,汉语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(7){女,民语言,农村应届,高中,文,疆内外地,300≦高考成绩<400}=>报到;(8){女,民语言,农村历届,高中,文,疆内外地,300≦高考成绩<400}=>报到。
(四)结果说明及验证
根据以上8个强关联规则,可知基本信息与规则左边属性值相同的学生,报到可能性大。将此规则应用于今后的录取现场时,录取人员可在同等条件下可优先录取具有以上属性值的学生,以提高新生率。
四、关联规则挖掘的分类预测
在关联模型中,如果列用于输入,那么该列的值只能在频繁项集中和关联规则的左边使用。如果列用于预测,则可以在频繁项集中以及关联规则的左边和右边使用该列的状态。如果列是逻辑型的,则它的状态可以出现在频繁项集中及规则的右边。
在新生报到表中,“是否报到”列的值是逻辑型,可以出现在频繁项集中及规则的右边,因此,“是否报到”列的状态就可以用于预测。例如,有一个频繁项目集{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’,是否报到=‘是’},和由此产生的一个强关联规则{性别=‘男’,考试语种=‘民’,毕业类别=‘三校’}=>报到,那么,可以预测出,性别为男性,考试语种为民语言,毕业类别为三校的新生将会来报到,或者说,他前来报到的可能性非常大。
利用关联规则算法进行关联推测的方法:(1)给定一系列项,找出左边匹配给定项集或者任何给定项集的子集的所有规则。应用这些规则来获取推荐列表。(2)如果没有合适的规则,或者可推荐的项太小,则应用边缘统计学来预测和返回出现最频繁的N个项。(3)基于概率对来自步骤1和步骤2的项进行排序。
根据以上方法,本文对该院2011级录取的新生数据进行了深入分析。将出现频率较高的项集预测为“会报到”,其它项集预测为“不会报到”,将所有频繁项集按概率大小顺序挖掘出来。将此挖掘结果应用于录取现场,可以指导录取人员按此顺序录取考生,提高考生的报到率。
五、结论
通过关联规则算法,在已有学生数据库中挖掘出学生信息与报到之间的规则,再将此规则应用于报考考生数据库,预测哪类考生报到可能性高,可以为高职院校录取人员提供有用信息,有效提高新生报到率。
参考文献:
[1]毛国君,段立娟,王实,石云.数据挖掘原理与算法[M].北京:清华大学出版社,2005,11-65
[2]于莉.基于高校学生信息库的数据挖掘[D].内蒙古:内蒙古大学,2004
[3]安淑芝等.数据仓库与数据挖掘[M].北京:清华大学出版社,2005,2-16
[4]彭松涛.数据挖掘技术在高校就业管理系统中的应用研究[D].浙江:浙江工业大学,2005
[5]刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008
[6]谢长卫.高校学生信息的数据挖掘研究[D].安徽:安徽理工大学,2008
[7]李万武.基于贝叶斯理论的数据挖掘在高校信息管理的应用研究[D].黑龙江:哈尔滨工程大学,2005
[作者简介]芦海燕(1974-),女,新疆伊宁市人,讲师,工程硕士,主要研究方向:数据挖掘、计算机辅助设计;沙红梅(1972-),女,新疆伊宁市人,助理讲师,本科,主要研究方向:计算机应用。
[基金项目]伊犁职业技术学院2011年度科研计划项目(yzyxm2011004)