论文部分内容阅读
目前,高校教师资源管理缺乏技术理论支撑,导致师资管理不当,师资流失严重,急需能够正确分析教师类型与流失原因的分类系统,从而能够为相关管理人员提供及时地、有针对性地决策依据。
分类技术中常见的是决策树方法,常见的有ID3,C4.5,SLIQ,Sprint,Public等,其关键问题在于测试属性的选择。为了找出真正影响决策的属性,减小决策树的规模,引入了基于属性相似度的分类算法,该算法是根据相似性原理,以测试属性和决策属性的相似度作为启发规则构建决策树的分类算法,其选择测试属性的计算速度比ID3算法更快。然而,基于属性相似度的分类算法在属性的选择上倾向于选择取值较少的属性,结果通常会增加树的深度;在构建决策树过程中,此算法不需要重新计算相似度,容易降低分类的精确度。
针对基于属性相似度的分类算法存在的问题,在使用属性相似度作为属性选择依据的基础上,对其相似度的计算方法做了修改。改进思路是:判断每个属性的取值分布,如果一个属性取某个值的所有记录都属于一个决策类型,则认为从该属性能直接判断类属性取值的能力较强,应该在原相似度计算方法的基础之上提升该属性的相似度,从而选择相似度高的属性作为测试属性,尽量避免选择取值较少的属性,在每分割一次数据集之后,重新计算相似度。为了避免出现过度拟合现象,采用剪枝技术修整决策树。
采用SQLSERVER数据库,使用VC#.net开发工具,应用改进的决策树算法,开发了师资流失原因分析系统,用于挖掘教师的各特征取值和流失原因之间的潜在关系,通过分析教师数据中体现出来的特性,为每一个流失原因找到一种准确的描述或模型。该系统实现的关键技术在于构建决策树时属性的选择计算,以及决策树的路径如何存储这两个问题。
系统测试证明,根据改进算法生成的决策树提取的决策规则十分有效,分类结果与实际基本相符,极大地提高了系统的工作效率。挖掘结果表明改进后的算法比基于属性相似度的分类算法和著名的ID3算法的预测精度都要高,计算相对于ID3算法更为简便。