基于高斯混合模型和集成学习的毕业生就业预测

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yanyiblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
毕业生的就业去向和质量一向是高校十分关注的问题,就业咨询和辅导也是高校十分关注的任务。高校每年都会存储大量毕业生情况和就业去向,但是通过人为分析这些数据中的规律,任务量非常大而且十分困难,并且会十分依赖主观因素。学生自身也很难应用这些数据。同时,辅导者对学生就业辅导时也会片面关注毕业生的部分特质,很难全面兼顾毕业生的所有情况。辅导者个人多年的从业经验也不易复制,无法大量普及,在面对需求量较大的时期,少数辅导者很难完成大量毕业生的辅导需求。针对这些问题,本文首先研究了数据聚类和预测的算法,其中根据聚类算法的类别,简单描述了一些常见的聚类算法,重点阐述了高斯混合模型的原理。接着研究了分类预测算法中的BP神经网络和支持向量机的数学原理。之后构建毕业生情况的表示指标,根据主观和经验认知、融合预测情况、外部经济环境因素以及相关性回归分析等操作,构建了较为完备的描述指标。将完整的数据通过归一化和乱序划分等操作,构建训练集和测试集。通过设计了相关预测算法,利用大量数据对毕业生进行聚类分析,通过高斯混合模型算法实现了对毕业生潜在类别的挖掘工作,并且具有一定的合理性。对毕业生的未来就业因素利用集成了BP神经网络和支持向量机模型的集成算法分析,根据对比实验研究得出了较好的预测模型参数方案。其中通过对比研究,个体分类器和集成模型各自的表现表明集成模型能够更好弥补各个个体分类器的不足。添加聚类结果与否的表现表明聚类结果能够促进分类准确率上升。最终形成的分类器在测试集上的表现较好,在预测工作单位性质和预测薪资水平任务上能够分别达到84.76%和85.35%的预测准确率。本研究提供了结合数据挖掘分析方法和毕业生就业问题的一种方法,为研究毕业生就业问题的辅导者提供了更多研究思路。本研究中的聚类算法所得结果能够提供毕业生的类别标签,对于不同的预测类别,可以为毕业生提供从自身情况出发的可能未来就业情况,为应届毕业生或其他在校学生提供就业参考信息及个人成长计划。
其他文献
随着铝型材在国内建筑、汽车、制造等行业的广泛应用,中国已经成为全球最大的铝型材产地和消费市场。而挤压加工是铝型材生产中核心环节,其工艺参数直接决定铝型材的生产成本、效率和能耗,这与《中国制造2025》政策要求、企业发展需求密切相关,所以优化挤压工艺参数使得多个目标值达到最优成为铝型材研究领域的热点。传统的方法依靠经验或物理公式建立工艺参数与优化目标之间的映射关系十分困难,而且难以根据近期生产情况迅
目标检测在近年来一直都是众多学者研究的热点问题。其目的是对自然图像中的实例对象进行分类并找出实例对应位置的包围框,在医学图像检测、人脸识别、视频监控等领域都有着非常广泛的应用。传统的目标检测技术都是建立在大量带有精确注释的图像数据集基础上,然而收集并标注该类数据耗时耗力,相较之下,基于弱监督学习的目标检测仅利用图像级别注释信息的数据即可完成目标检测模型构建。图像级注释仅需标注图像中的类别信息,不需
协同致死关系是基因之间的一种特殊的相互作用,当构成协同致死关系的两个基因同时产生缺陷时,会导致细胞的死亡。利用协同致死关系开发靶向抗癌药物是现代癌症治疗理论中重要的一环,在传统的生物学实验中需要通过RNA筛选等手段探测未知的协同致死基因对,而这些实验存在成本高昂以及效率低下等问题。通过计算方法预测协同致死基因对可以为生物学实验提供目标指导,从而提高探测实验的研究效率,在一定程度上降低实验成本。随着
在晚间,多数无课程与活动安排的教室会被学生自习使用。一般情况下,用于晚自习的教室在所有教室中所占的比重较高,但平均每间晚自习教室的座位占用率较低,容易造成电能的浪费。因此,有必要对晚自习教室进行调度,提高整体的座位资源利用率。在晚自习时,学生越发关注空间上的舒适感能否被满足,即有没有足够的自习空间。当前,缺乏考虑学生晚自习所需空间的教室节能调度研究。本文通过采集与分析晚自习相关的数据,对学生微观选
在计算机视觉中,迁移学习称为领域自适应。通常,数据选自于两个有所差异的数据域,分别是源域、目标域。这两个数据域的差异在于其中数据的特征分布或者所在的特征空间不同。领域自适应的目的是从有足够标注数据的源域中学习知识来帮助没有(或只有少部分)标注数据的目标域进行模型的学习。领域自适应可以有效解决特征分布不同时的跨域识别问题,大多领域自适应方法将两个域的特征投影到子空间,在子空间进行分类器的学习,以取得
随着互联网技术的发展,互联网几乎融入社会的所有行业,并逐渐成为我们生活、学习、工作中必不可少的一部分。作为当今最热门的Web程序开发语言,PHP语言具有成本低、速度快、可移植性好等优点,被广泛应用到互联网应用开发中。伴随Ruby On Rails出现,PHP也涌现出Laravel、Symfony、Yii等优秀的开发框架,并从开始的模仿逐渐过渡到拥有自己特有的风格。但是当前主流的PHP开发框架还是存
注意力缺陷伴多动障碍(Attention Deficit Hyperactivity Disorder,ADHD)是一种常见的儿童神经发育障碍,表现为注意力不集中、过度活跃和冲动,严重影响儿童的日常学习和生活。目前医生主要依靠临床观察和评定量表来进行ADHD的诊断,定性诊断占比高,使得结果具有较大主观性。由于临床上仍然缺乏客观有效的ADHD量化评估方法,对症状较轻微的患者容易造成误诊或漏诊。近年来
技术就是对给定的单个或者多个文本进行总结概括,得到文本摘要。摘要既要能够反映原文档的主要内容,还要尽可能地保持简洁明了。最近几年,由于deep learning技术的快速发展,文本摘要技术也有了很大的改变,不再是只有传统的抽取式文本摘要技术,而是转变为抽取式与生成式共存的文本摘要技术。当原文档中存在多个主题共存这种情况时,目前大多数生成式摘要方法会对这多个主题的内容进行较为全面的总结和概括,尽可能
随着动漫、游戏、电影等产业的迅速发展,人体三维建模的需求日益增加。但传统建模需要精密仪器的测量,成本高且使用环境严苛。视觉计算的迅猛发展为人体三维建模提供另一种方法—基于图像重建模型,即从图像中获取人体三维空间信息,构建人体三维模型。单目图像重建相较于多目图像,因缺少深度信息,获得三维信息是具有难度的。为解决单目图像重建缺乏三维信息,重建模型只关注姿势而忽略形状,且重建误差较大的问题,结合参数化模
研发远程实验平台的动因源于本文作者为解决本科实验教学工作中的困境,在设备台套数不足及排课资源有限的条件下需要完成课时倍增的实验教学任务。本文作者有多个远程实验系统的开发、部署及运维经验。本文分析两个远程实验案例的开发及其技术演进过程后,提出了如下主要设计思路:以FPGA在线编程为核心,以虚拟化云服务为场景,以虚实结合为导向,实现计算机组成原理实验的云服务化。根据这个设计思路,本文展开计算机组成原理