基于决策树的数据挖掘技术在学生就业指导中的应用

来源 :科协论坛·下半月 | 被引量 : 0次 | 上传用户:wik2pwerq32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对学生就业问题,基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
  关键词:决策树 数据挖掘 就业指导
  中图分类号:G646 文献标识码:A 文章编号:1007-3973(2011)012-172-02
  1 绪论
  近年来高校毕业生人数逐年增加,就业压力不断增大,如何做好毕业生的就业指导,促进学生更好的就业,关系到学生的切身利益,也关系到高校自身的发展建设。
  在当今的信息时代中,计算机技术和网络技术日新月异地高速发展,各高校普遍都建立起了支持高校教务管理工作的信息化平台,堆积了大量的数据信息。但这些系统多半是联机事务处理系统,缺乏综合分析和辅助决策的能力。本文针对学生就业问题,基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
  2 学生就业指导数据仓库设计与实现
  2.1 数据挖掘的定义
  数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解规则或模式的过程,其主要特点是对海量数据进行抽取、转换、集成、分析和其他模型化处理,从中提取用于辅助决策的有价值信息。
  2.2 需求分析
  基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
  2.3 数据仓库设计与实现
  在数据仓库模型设计过程中,采用标准的三层数据建模方法,即概念模型设计、逻辑模型设计和物理模型设计。概念模型设计提供了对学生就业分析的一个整体的概括性描述,针对相关问题收集需求;逻辑模型设计阶段界定数据和应用范围;物理模型设计主要是规划数据存儲方式。
  数据仓库要求数据按照其领域属性来组织,即面向主题的。高校管理系统数据来自正在运行的各个管理信息系统,但各个管理平台的数据存放在各自不同数据库系统之中,由不同的厂家开发,设计时也缺乏统一的规范。因此在构建数据仓库时,要先设计一个总体框架,每一个数据集市的设计实施都要遵从统一的设计规范和原则,实施一系列标准化处理,对数据做必要的清洗整合。这个过程称为ETL,分为三个步骤:数据抽取(Extract)、数据转换(Transform)和数据加载(Load)。
  本文采用Microsoft SQL Server 2005企业版,采集所需数据经过ETL清洗后加载到数据仓库中,按照实验要求形成就业指导数据集市,如图1所示。
  3 决策树算法的应用
  3.1 决策树算法概述
  决策树由决策节点、机会节点与节点间的分枝连线组成。从决策节点引出的分枝连线表示决策者可作出的选择,从机会节点引出的分枝连线表示机会节点所示事件发生的概率。在利用决策树解题时,应从决策树末端起,从后向前,步步推进到决策树的始端。在向前推进的过程中,应在每一阶段计算事件发生的期望值。计算完毕后,开始对决策树进行剪枝,在每个决策节点删去除了最高期望值以外的其他所有分枝,最后步步推进到第一个决策结点,这时就找到了问题的最佳方案。
  从决策树的根节点开始,在每个节点都是一个属性判断,不同决策判断导致了不同的分支,最后会到达某一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个属性)来判断所属的类别(每个叶子对应一个类别)。建立决策树的过程,就是不断地把数据进行判定的过程,每次判定对应一个字段属性,对每个判定都要求不同分枝之间的差异性最大。决策树方法适合于处理非数值型数据,但如果生成的决策树过于庞大,会对结果的分析带来困难,因此生成决策树后再做剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。
  这里采用决策树的生成算法C4.5,C4.5算法是ID3算法的改进,C4.5采用信息增益率(Information Gain Ratio)作为属性选择的标准,而ID3采用信息增益为选择标准,理论和实验表明,C4.5比ID3的效果更好。假设S是训练样本数据集,S中类别标识有m个独立取值,即有m个类Ci,i=1,2, …,m;Ri为数据集S中属于Ci的子集,用ri表示Ri中元组的数量。那么S在分类中的期望信息量计算为:
  其中Pi表示样本属于Ci类的概率,Pi=ri/|S|,|S|为训练样本数据集的元组数量。假设属性A共有n个不同取值{a1, a2, … , an },通过属性A的取值可将S划分为n个子集,其中Sj表示S中属性A的取值为aj的子集,j=1,2, …,n。
  如果A作为决策属性,那么这些子集对应该节点的不同分枝。如果sij表示Sj子集中属于Ci类的元组数量,则属性A对于分类Ci(1,2, …,m)的熵可由下式计算:
  其中属性A的每个取值对分类Cj的期望信息量I(S1j+S2j+…+Smj)的计算公式为:
  其中Pij=Sij/|Sj|表示在Sj子集中属于Cj类的概率。
  由此可得到属性A作为决策分类属性的信息增益为:
  Gain(A)=I(r1,r2,,rn,)-E(A)
  信息增益率为:
  Ratio(A)=Gain(A)/E(A)
  C4.5算法需要计算每个决策属性的信息增益率,取最大信息增益率的属性作为数据集S的决策属性节点,并能过属性的每一个取值形成分枝,由此构建决策树。
  3.2 在学生就业指导中的应用
  学生就业信息表中,包含有学号、姓名、就业单位等数据,需要从学生基本信息表中提取平均专业成绩、外语水平、计算机水平、实践能力等属性作为决策属性。由于就业单位的数据是类似于“九江市第三中学”等文字性描述的记录,所以对工作单位的性质进行量化处理,分为:企业单位 (A)、机关事业单位(B)这两类,每种单位又分两个层次:好(1)和一般(2),因此工作单位共分为4类:A1、A2、B1、B2。
  从学生就业信息表中选取2800条记录作为实验数据集,划分为训练集1800条记录和测试集1000条记录,构建C4.5的决策树。这样,训练样本S中共1800个元组,其中A1、A2、B1、B2、为4个分类,对应的元组个数分别为r1=500, r2=800, r3=300, r4=200。
  由此计算每个决策属性的信息增益,首先计算数据集的S期望信息量:
  然后计算每个决策属性的期望信息量,以属性“平均专业成绩”为例,
  当“平均专业成绩为优”时,I(s11,s21,s31,s41) =1.241
  当“平均专业成绩为良”时,I(s12,s22,s32,s42) =1.745
  当“平均专业成绩为中”时,I(s13,s23,s33,s43) =1.193
  进一步计算得出“平均专业成绩”的熵值 E(平均专业成绩)=1.274
  信息增益 Gain(平均专业成绩)=0.542
  因此属性“平均专业成绩”的信息增益率为:
  Ratio(平均专业成绩)= Gain(平均专业成绩)/ E(平均专业成绩)=0.425
  按照同样方法,可以计算算出“外语水平”、“计算机水平”、“实践能力”的信息增益率分别为:
  Ratio(外语水平)= 0.314
  Ratio(计算机水平)= 0.263
  Ratio(实践能力)=0.085
  由于“平均专业成绩”具有最大的信息增益率,因此选择该属性作为决策树的根节点。对于每一个分枝,重复上述计算过程,可生成决策树。再选取测试集中的1000条记录对决策树进行测试和剪枝,得到最终的决策树。图3中选取决策树的部分以示说明:
  从生成的决策树可以非常直观地得到分类规则,例如:
  IF 平均专业成绩=“优” AND 外语水平=“六级” AND 计算机水平=“三级” Then 在A1单位就业,即企业单位第一层次单位;
  IF平均专业成绩=“优” AND 外语水平=“四级”AND 计算机水平=“二级” Then 在B1单位就业,即机关事业单位第一层次单位;等等。
  4 小结
  我们对构造的决策树进行分析,要提高学生就业层次,对于两类不同的单位,如果要提高机关事业单位的就业层次,需要重点加强学生的专业素质培养,同时外语和计算机能力也不能忽视;如果要提高企业单位的就业层次,需要加强学生的外语水平和计算机水平的培养,同时学生专业对知识掌握也需要一定的深度。在学校今后的就业指导工作中,可以根据学生特点和岗位需求有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性,使学生就业更顺利更满意。
  
  参考文献:
  [1] 牛慧卿.数据挖掘在高校管理信息系统中的应用研究[J].机械管理开发,2008,23(1):131-133.
  [2] 姜红艳.数据挖掘在学生成绩分析中的应用[D].吉林:吉林大学,2006.
  [3] ROKACH L.Top-down induction of decision trees classifiers-a survey[J].IEEE Transactions on Systems,2005,35(4):476-487.
  [4] 雷松泽,郝艳.基于决策树的就业数据挖掘[J].西安工业学院学报,2005,25(5):429-432.
其他文献
摘 要:网络教室教学平台已广泛应用于中小学信息技术课堂,在教学平台的辅助下,教师能够很好地实施教学活动。从网络教室教学平台的功能出发,通过各功能的组合使用,对信息技术课堂进行组织和管理,以期取得更好的教学效果。  关键词:网络教室 教学平台 组织 管理  中图分类号:G642 文献标识码:A 文章编号:1007-3973(2011)012-168-02  1 网络教室教学平台及其
本文从理论和实践两方面着手,立足于大连的实际,通过对大连城市公共服务进行本土实地调研,结合大连城市建设的发展目标以及大连城市公共服务的发展要求,在借鉴西方城市公共服务改
本文拟以海关行政执法框架下的法治理念问题为切入点,通过对海关行政执法历程的追溯,梳理出隐含其中的法治理念演进轨迹,同时结合海关执法现状,勾勒出在新时期海关行政执法理念中
事业单位是中国特有的一种社会服务组织形式,是提供公共产品和公共服务的主要载体,对我国经济社会的发展有着巨大的影响。传统事业单位体制已经不适应社会和经济发展的要求,事业
摘 要:学校再现着社会文化中的性别不平等。课程是学校教育中的重要组成部分,因而也在建构着性别不平等,主要体现在两个方面:显性课程和隐性课程。而显性课程的不平等表现在学科偏见和内容偏见上;隐性课程的不平等则表现在:精神环境层面、学校人员结构层面、教学方式及语言文字的传递作用上。  关键词:性别不平等 性别偏见 性别不公 课程  中图分类号:G42 文献标识码:A 文章编号:1007-
现代性公共政策评估理论在对公共政策评估进行解释时表现出合法性与合理性各执一端,工具理性与价值理性此消彼涨的状态。用质量问题来概括政策评估的现存问题包括了两层意思即