论文部分内容阅读
随着高等院校的发展和扩招,学生数量剧增,学生的就业成为一个日益严峻的问题。同时,各高校的学生信息化系统积累了大量的学生数据,面对这些数据,我们使用查询、修改、添加和删除等操作是不够的,借助数据挖掘技术对这些数据进行学习,发挥它们潜在的应用价值,为高校大学生就业服务,是近年来教育领域研究的热点之一。使用数据挖掘技术对大学生就业数据行进分析,研究较多的算法有决策树、聚类分析和关联规则。决策树算法的核心问题根据决策属性对数据集进行分类,决策属性的选择和计算方法决定了它很难适用于大规模的训练集,虽然提出了ID3、ID4和C4.5等改进算法,但是并未考虑属性间的关联度和错分积累问题,不能从根本提高分类的准确率,同时决策树算法也是一种监督学习算法,而大学生就业数据含有缺失类标记数据,算法健壮性不能得到保证。聚类算法对大学生就业数据进行分析,是在无类别标记指导的前提下进行的无监督学习,常用的算法有K-means算法等,这类基于划分算法的聚类结果强烈依赖初始化参数的选择,算法执行后把就业单位性质相近的学生聚成一类,对其他未就业的学生并未形成指导性意见。关联规则算法可以挖掘出影响大学生就业的相关因素,根据这些因素可以为大学生的培养提供参考性建议,使用较多的是Apropri算法和其改进算法,但是算法执行过程中生成数量巨大的备选项集、过多的I/O操作和较多的循环影响执行速度,算法在执行效率上很低。为了解决以上数据挖掘算法在就业数据分析中存在的问题,充分利用就业数据中有标记数据的引导作用,发挥无标记数据的辅助作用,训练出具有泛化性的分类器,对大学生就业数据进行分类和预测,使之成为还没有就业学生推荐就业的依据。本文所做工作如下:(1)分析国内外高校大学毕业生就业形势和影响就业的相关因素,对重庆市某高校教务系统的学生成绩信息表、学生管理系统的学生基本信息表和高校就业管理系统的学生就业数据表进行合并处理,得到毕业生的综合数据。(2)在图算法基础上,讨论基于图的半监督学习算法,把核函数引进到半监督学习框架中,发挥核函数的优势,解决低维空间线性不可分的问题,提出了基于核的图上半监督学习算法。最后使用毕业生综合数据集与基于全局和局部的半监督学习算法进行对比实验,实验结果证明了提出算法的有效性和可行性。(3)研究了稀疏图的构造方法,讨论了稀疏图有效反映数据之间几何关系和空间构造的特性,并证明了用该方法求解属性权值的正确性和合理性,提出非对称稀疏图的半监督学习算法。最后通过线性规划求解最优的稀疏表达,并与对称图的拉普拉斯算法进行对比验证,实验结果证实了提出算法的可行性。(4)在朴素贝叶斯分类算法的基础上,弱化特征属性间彼此独立的条件假设,使其决策属性具有更合理的权值,对分类的影响更准确,提出了改进属性加权贝叶斯多分类算法。最后在毕业生数据集上与朴素贝叶斯算法进行对比实验,实验结果证实了改进算法的有效性。(5)提出大学生就业问题的四点建议,并指出下一步的研究目标和工作方向。