论文部分内容阅读
摘 要:针对学生就业问题,基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
关键词:决策树 数据挖掘 就业指导
中图分类号:G646 文献标识码:A 文章编号:1007-3973(2011)012-172-02
1 绪论
近年来高校毕业生人数逐年增加,就业压力不断增大,如何做好毕业生的就业指导,促进学生更好的就业,关系到学生的切身利益,也关系到高校自身的发展建设。
在当今的信息时代中,计算机技术和网络技术日新月异地高速发展,各高校普遍都建立起了支持高校教务管理工作的信息化平台,堆积了大量的数据信息。但这些系统多半是联机事务处理系统,缺乏综合分析和辅助决策的能力。本文针对学生就业问题,基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
2 学生就业指导数据仓库设计与实现
2.1 数据挖掘的定义
数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解规则或模式的过程,其主要特点是对海量数据进行抽取、转换、集成、分析和其他模型化处理,从中提取用于辅助决策的有价值信息。
2.2 需求分析
基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
2.3 数据仓库设计与实现
在数据仓库模型设计过程中,采用标准的三层数据建模方法,即概念模型设计、逻辑模型设计和物理模型设计。概念模型设计提供了对学生就业分析的一个整体的概括性描述,针对相关问题收集需求;逻辑模型设计阶段界定数据和应用范围;物理模型设计主要是规划数据存儲方式。
数据仓库要求数据按照其领域属性来组织,即面向主题的。高校管理系统数据来自正在运行的各个管理信息系统,但各个管理平台的数据存放在各自不同数据库系统之中,由不同的厂家开发,设计时也缺乏统一的规范。因此在构建数据仓库时,要先设计一个总体框架,每一个数据集市的设计实施都要遵从统一的设计规范和原则,实施一系列标准化处理,对数据做必要的清洗整合。这个过程称为ETL,分为三个步骤:数据抽取(Extract)、数据转换(Transform)和数据加载(Load)。
本文采用Microsoft SQL Server 2005企业版,采集所需数据经过ETL清洗后加载到数据仓库中,按照实验要求形成就业指导数据集市,如图1所示。
3 决策树算法的应用
3.1 决策树算法概述
决策树由决策节点、机会节点与节点间的分枝连线组成。从决策节点引出的分枝连线表示决策者可作出的选择,从机会节点引出的分枝连线表示机会节点所示事件发生的概率。在利用决策树解题时,应从决策树末端起,从后向前,步步推进到决策树的始端。在向前推进的过程中,应在每一阶段计算事件发生的期望值。计算完毕后,开始对决策树进行剪枝,在每个决策节点删去除了最高期望值以外的其他所有分枝,最后步步推进到第一个决策结点,这时就找到了问题的最佳方案。
从决策树的根节点开始,在每个节点都是一个属性判断,不同决策判断导致了不同的分支,最后会到达某一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个属性)来判断所属的类别(每个叶子对应一个类别)。建立决策树的过程,就是不断地把数据进行判定的过程,每次判定对应一个字段属性,对每个判定都要求不同分枝之间的差异性最大。决策树方法适合于处理非数值型数据,但如果生成的决策树过于庞大,会对结果的分析带来困难,因此生成决策树后再做剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。
这里采用决策树的生成算法C4.5,C4.5算法是ID3算法的改进,C4.5采用信息增益率(Information Gain Ratio)作为属性选择的标准,而ID3采用信息增益为选择标准,理论和实验表明,C4.5比ID3的效果更好。假设S是训练样本数据集,S中类别标识有m个独立取值,即有m个类Ci,i=1,2, …,m;Ri为数据集S中属于Ci的子集,用ri表示Ri中元组的数量。那么S在分类中的期望信息量计算为:
其中Pi表示样本属于Ci类的概率,Pi=ri/|S|,|S|为训练样本数据集的元组数量。假设属性A共有n个不同取值{a1, a2, … , an },通过属性A的取值可将S划分为n个子集,其中Sj表示S中属性A的取值为aj的子集,j=1,2, …,n。
如果A作为决策属性,那么这些子集对应该节点的不同分枝。如果sij表示Sj子集中属于Ci类的元组数量,则属性A对于分类Ci(1,2, …,m)的熵可由下式计算:
其中属性A的每个取值对分类Cj的期望信息量I(S1j+S2j+…+Smj)的计算公式为:
其中Pij=Sij/|Sj|表示在Sj子集中属于Cj类的概率。
由此可得到属性A作为决策分类属性的信息增益为:
Gain(A)=I(r1,r2,,rn,)-E(A)
信息增益率为:
Ratio(A)=Gain(A)/E(A)
C4.5算法需要计算每个决策属性的信息增益率,取最大信息增益率的属性作为数据集S的决策属性节点,并能过属性的每一个取值形成分枝,由此构建决策树。
3.2 在学生就业指导中的应用
学生就业信息表中,包含有学号、姓名、就业单位等数据,需要从学生基本信息表中提取平均专业成绩、外语水平、计算机水平、实践能力等属性作为决策属性。由于就业单位的数据是类似于“九江市第三中学”等文字性描述的记录,所以对工作单位的性质进行量化处理,分为:企业单位 (A)、机关事业单位(B)这两类,每种单位又分两个层次:好(1)和一般(2),因此工作单位共分为4类:A1、A2、B1、B2。
从学生就业信息表中选取2800条记录作为实验数据集,划分为训练集1800条记录和测试集1000条记录,构建C4.5的决策树。这样,训练样本S中共1800个元组,其中A1、A2、B1、B2、为4个分类,对应的元组个数分别为r1=500, r2=800, r3=300, r4=200。
由此计算每个决策属性的信息增益,首先计算数据集的S期望信息量:
然后计算每个决策属性的期望信息量,以属性“平均专业成绩”为例,
当“平均专业成绩为优”时,I(s11,s21,s31,s41) =1.241
当“平均专业成绩为良”时,I(s12,s22,s32,s42) =1.745
当“平均专业成绩为中”时,I(s13,s23,s33,s43) =1.193
进一步计算得出“平均专业成绩”的熵值 E(平均专业成绩)=1.274
信息增益 Gain(平均专业成绩)=0.542
因此属性“平均专业成绩”的信息增益率为:
Ratio(平均专业成绩)= Gain(平均专业成绩)/ E(平均专业成绩)=0.425
按照同样方法,可以计算算出“外语水平”、“计算机水平”、“实践能力”的信息增益率分别为:
Ratio(外语水平)= 0.314
Ratio(计算机水平)= 0.263
Ratio(实践能力)=0.085
由于“平均专业成绩”具有最大的信息增益率,因此选择该属性作为决策树的根节点。对于每一个分枝,重复上述计算过程,可生成决策树。再选取测试集中的1000条记录对决策树进行测试和剪枝,得到最终的决策树。图3中选取决策树的部分以示说明:
从生成的决策树可以非常直观地得到分类规则,例如:
IF 平均专业成绩=“优” AND 外语水平=“六级” AND 计算机水平=“三级” Then 在A1单位就业,即企业单位第一层次单位;
IF平均专业成绩=“优” AND 外语水平=“四级”AND 计算机水平=“二级” Then 在B1单位就业,即机关事业单位第一层次单位;等等。
4 小结
我们对构造的决策树进行分析,要提高学生就业层次,对于两类不同的单位,如果要提高机关事业单位的就业层次,需要重点加强学生的专业素质培养,同时外语和计算机能力也不能忽视;如果要提高企业单位的就业层次,需要加强学生的外语水平和计算机水平的培养,同时学生专业对知识掌握也需要一定的深度。在学校今后的就业指导工作中,可以根据学生特点和岗位需求有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性,使学生就业更顺利更满意。
参考文献:
[1] 牛慧卿.数据挖掘在高校管理信息系统中的应用研究[J].机械管理开发,2008,23(1):131-133.
[2] 姜红艳.数据挖掘在学生成绩分析中的应用[D].吉林:吉林大学,2006.
[3] ROKACH L.Top-down induction of decision trees classifiers-a survey[J].IEEE Transactions on Systems,2005,35(4):476-487.
[4] 雷松泽,郝艳.基于决策树的就业数据挖掘[J].西安工业学院学报,2005,25(5):429-432.
关键词:决策树 数据挖掘 就业指导
中图分类号:G646 文献标识码:A 文章编号:1007-3973(2011)012-172-02
1 绪论
近年来高校毕业生人数逐年增加,就业压力不断增大,如何做好毕业生的就业指导,促进学生更好的就业,关系到学生的切身利益,也关系到高校自身的发展建设。
在当今的信息时代中,计算机技术和网络技术日新月异地高速发展,各高校普遍都建立起了支持高校教务管理工作的信息化平台,堆积了大量的数据信息。但这些系统多半是联机事务处理系统,缺乏综合分析和辅助决策的能力。本文针对学生就业问题,基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
2 学生就业指导数据仓库设计与实现
2.1 数据挖掘的定义
数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解规则或模式的过程,其主要特点是对海量数据进行抽取、转换、集成、分析和其他模型化处理,从中提取用于辅助决策的有价值信息。
2.2 需求分析
基于高校管理系统中的学生就业数据信息,运用决策树分类算法,找出学生平均专业成绩、外语水平、计算机水平对实际就业的影响,以便在今后的就业指导工作中,根据学生特点有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性。
2.3 数据仓库设计与实现
在数据仓库模型设计过程中,采用标准的三层数据建模方法,即概念模型设计、逻辑模型设计和物理模型设计。概念模型设计提供了对学生就业分析的一个整体的概括性描述,针对相关问题收集需求;逻辑模型设计阶段界定数据和应用范围;物理模型设计主要是规划数据存儲方式。
数据仓库要求数据按照其领域属性来组织,即面向主题的。高校管理系统数据来自正在运行的各个管理信息系统,但各个管理平台的数据存放在各自不同数据库系统之中,由不同的厂家开发,设计时也缺乏统一的规范。因此在构建数据仓库时,要先设计一个总体框架,每一个数据集市的设计实施都要遵从统一的设计规范和原则,实施一系列标准化处理,对数据做必要的清洗整合。这个过程称为ETL,分为三个步骤:数据抽取(Extract)、数据转换(Transform)和数据加载(Load)。
本文采用Microsoft SQL Server 2005企业版,采集所需数据经过ETL清洗后加载到数据仓库中,按照实验要求形成就业指导数据集市,如图1所示。
3 决策树算法的应用
3.1 决策树算法概述
决策树由决策节点、机会节点与节点间的分枝连线组成。从决策节点引出的分枝连线表示决策者可作出的选择,从机会节点引出的分枝连线表示机会节点所示事件发生的概率。在利用决策树解题时,应从决策树末端起,从后向前,步步推进到决策树的始端。在向前推进的过程中,应在每一阶段计算事件发生的期望值。计算完毕后,开始对决策树进行剪枝,在每个决策节点删去除了最高期望值以外的其他所有分枝,最后步步推进到第一个决策结点,这时就找到了问题的最佳方案。
从决策树的根节点开始,在每个节点都是一个属性判断,不同决策判断导致了不同的分支,最后会到达某一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个属性)来判断所属的类别(每个叶子对应一个类别)。建立决策树的过程,就是不断地把数据进行判定的过程,每次判定对应一个字段属性,对每个判定都要求不同分枝之间的差异性最大。决策树方法适合于处理非数值型数据,但如果生成的决策树过于庞大,会对结果的分析带来困难,因此生成决策树后再做剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。
这里采用决策树的生成算法C4.5,C4.5算法是ID3算法的改进,C4.5采用信息增益率(Information Gain Ratio)作为属性选择的标准,而ID3采用信息增益为选择标准,理论和实验表明,C4.5比ID3的效果更好。假设S是训练样本数据集,S中类别标识有m个独立取值,即有m个类Ci,i=1,2, …,m;Ri为数据集S中属于Ci的子集,用ri表示Ri中元组的数量。那么S在分类中的期望信息量计算为:
其中Pi表示样本属于Ci类的概率,Pi=ri/|S|,|S|为训练样本数据集的元组数量。假设属性A共有n个不同取值{a1, a2, … , an },通过属性A的取值可将S划分为n个子集,其中Sj表示S中属性A的取值为aj的子集,j=1,2, …,n。
如果A作为决策属性,那么这些子集对应该节点的不同分枝。如果sij表示Sj子集中属于Ci类的元组数量,则属性A对于分类Ci(1,2, …,m)的熵可由下式计算:
其中属性A的每个取值对分类Cj的期望信息量I(S1j+S2j+…+Smj)的计算公式为:
其中Pij=Sij/|Sj|表示在Sj子集中属于Cj类的概率。
由此可得到属性A作为决策分类属性的信息增益为:
Gain(A)=I(r1,r2,,rn,)-E(A)
信息增益率为:
Ratio(A)=Gain(A)/E(A)
C4.5算法需要计算每个决策属性的信息增益率,取最大信息增益率的属性作为数据集S的决策属性节点,并能过属性的每一个取值形成分枝,由此构建决策树。
3.2 在学生就业指导中的应用
学生就业信息表中,包含有学号、姓名、就业单位等数据,需要从学生基本信息表中提取平均专业成绩、外语水平、计算机水平、实践能力等属性作为决策属性。由于就业单位的数据是类似于“九江市第三中学”等文字性描述的记录,所以对工作单位的性质进行量化处理,分为:企业单位 (A)、机关事业单位(B)这两类,每种单位又分两个层次:好(1)和一般(2),因此工作单位共分为4类:A1、A2、B1、B2。
从学生就业信息表中选取2800条记录作为实验数据集,划分为训练集1800条记录和测试集1000条记录,构建C4.5的决策树。这样,训练样本S中共1800个元组,其中A1、A2、B1、B2、为4个分类,对应的元组个数分别为r1=500, r2=800, r3=300, r4=200。
由此计算每个决策属性的信息增益,首先计算数据集的S期望信息量:
然后计算每个决策属性的期望信息量,以属性“平均专业成绩”为例,
当“平均专业成绩为优”时,I(s11,s21,s31,s41) =1.241
当“平均专业成绩为良”时,I(s12,s22,s32,s42) =1.745
当“平均专业成绩为中”时,I(s13,s23,s33,s43) =1.193
进一步计算得出“平均专业成绩”的熵值 E(平均专业成绩)=1.274
信息增益 Gain(平均专业成绩)=0.542
因此属性“平均专业成绩”的信息增益率为:
Ratio(平均专业成绩)= Gain(平均专业成绩)/ E(平均专业成绩)=0.425
按照同样方法,可以计算算出“外语水平”、“计算机水平”、“实践能力”的信息增益率分别为:
Ratio(外语水平)= 0.314
Ratio(计算机水平)= 0.263
Ratio(实践能力)=0.085
由于“平均专业成绩”具有最大的信息增益率,因此选择该属性作为决策树的根节点。对于每一个分枝,重复上述计算过程,可生成决策树。再选取测试集中的1000条记录对决策树进行测试和剪枝,得到最终的决策树。图3中选取决策树的部分以示说明:
从生成的决策树可以非常直观地得到分类规则,例如:
IF 平均专业成绩=“优” AND 外语水平=“六级” AND 计算机水平=“三级” Then 在A1单位就业,即企业单位第一层次单位;
IF平均专业成绩=“优” AND 外语水平=“四级”AND 计算机水平=“二级” Then 在B1单位就业,即机关事业单位第一层次单位;等等。
4 小结
我们对构造的决策树进行分析,要提高学生就业层次,对于两类不同的单位,如果要提高机关事业单位的就业层次,需要重点加强学生的专业素质培养,同时外语和计算机能力也不能忽视;如果要提高企业单位的就业层次,需要加强学生的外语水平和计算机水平的培养,同时学生专业对知识掌握也需要一定的深度。在学校今后的就业指导工作中,可以根据学生特点和岗位需求有意识地加强相关指导和培训,提高对学生就业指导的方向性和准确性,使学生就业更顺利更满意。
参考文献:
[1] 牛慧卿.数据挖掘在高校管理信息系统中的应用研究[J].机械管理开发,2008,23(1):131-133.
[2] 姜红艳.数据挖掘在学生成绩分析中的应用[D].吉林:吉林大学,2006.
[3] ROKACH L.Top-down induction of decision trees classifiers-a survey[J].IEEE Transactions on Systems,2005,35(4):476-487.
[4] 雷松泽,郝艳.基于决策树的就业数据挖掘[J].西安工业学院学报,2005,25(5):429-432.