数据驱动的程序设计竞赛成绩预测技术研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:edwardeternity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学科竞赛是指在紧密结合传统课堂教学的基础上,以培养学生的学习兴趣、激发学生的潜能和促进学生的综合能力发展为目的,进行的一种特殊的考试,对提高学生的创新实践能力和推动人才培养等方面具有重要作用。近年来,各大高校均提高了对学科竞赛的重视,以学科竞赛带动创新创业教育深入开展,在教学模式、教育体系改革方面做了很多研究,但是在人才选拔方面的研究较少,很少考虑到成绩预测是一种优化人才选拔、提高竞赛成绩的方法。因此,如何进行竞赛获奖预测以提高学生竞赛水平是一个重要的研究内容。本课题以机器学习技术进行数据分析为基础,以蓝桥杯全国软件和信息技术专业人才大赛为例,进行学科竞赛的研究,提出了一种数据驱动的程序设计竞赛成绩预测方法,以帮助学生与教师开展竞赛相关工作。该方法首先从我校计算机专业的学生中进行数据采集,在采集数据过程中考虑到常规的学生基本信息、成绩信息等静态特征,也考虑到学生在BUCTOJ、Code Forces、At Coder、牛客网等网站训练相关的动态特征,得到41种特征。经数据清洗,特征选择,皮尔逊相关系数分析后,使用八种常用的机器学习算法构建预测模型,进行参数优化,并将预测标签设置为多种类型,进行二分类和多分类的程序设计获奖预测研究,同时进行消融实验对特征重要性进行评估。本课题以准确率(Accuracy),精确率(Precision),召回率(Recall)和F-measure作为二分类预测的评价指标,以Weighted-average作为多分类预测的评价指标,使用八种机器学习模型,进行50次十折交叉验证。实验结果表明,模型预测准确率均在80%以上,对于二分类(是否获奖)预测问题,随机森林算法拥有最优的表现,其Accuracy为96.17%,F-measure值为95.14%。对于多分类(具体奖项)预测问题,多层感知器拥有最优的表现,预测标签设置为三类时,Weighted-Accuracy为93.32%,预测标签设置为六类时,Weighted-Accuracy为83.42%。以Mean Decrease Accuracy作为特征重要性的评价指标,实验结果表明,在Code Forces网站的训练特征对预测结果影响最大。最后,本课题设计并开发了一套基于B/S架构的程序设计竞赛数据统计与分析系统。该系统收集学生在各个竞赛网站的训练数据,基于上述研究开发预测模块,进行学生程序设计竞赛的获奖预测,抓取各个竞赛网站的题目并进行介绍及分类并设置跳转,帮助学生进行训练提升。
其他文献
<正>据环球聚氨酯网2022年11月2日报道,2022年11月1日德国BASF股份公司(以下简称“BASF”)推出了全新优化等级的热塑性聚氨酯(以下简称“TPU”)牌号■1180 A 10 WDM,可用于生产电动汽车快速充电用电缆。目前,大功率充电桩改善了消费者的电动汽车充电体验,在市场上大受欢迎。然而,快速充电桩的大型电缆很硬且易磨损和老化。为了满足消费者的使用需求,BASF适时推出一款全新优化
期刊
单细胞测序技术不同于第一、第二或第三代测序技术,这是一项针对单个细胞进行扩增与测序的技术。正是依托这项技术的发展,人类对于基因组学的研究达到了前所未有的新高度,也正是因为单细胞测序技术的蓬勃发展,对单细胞数据的下游分析也被广泛开展起来,其中包括了细胞异质性分析、细胞亚群分类、分化发育分析等诸多研究方向。然而,单细胞测序数据受限于测序深度等因素的影响,数据非常稀疏且存在较多的噪声,特别是dropou
学位
随着软件行业的快速发展和软件规模的持续扩大,依靠人工进行错误定位耗时耗力,已经不能满足现今软件开发需求。为了降低软件错误检测开销,提高开发效率,近年来提出自动化错误定位技术以及相关研究,基于变异的错误定位(Mutation-Based Fault Localization,MBFL)是一种被广泛研究的自动化错误定位技术,但主要基于程序一阶变异开展研究。由于一阶变异仅适用于单错误情况,而在真实场景下
学位
卫星遥感成像技术的快速发展的带了海量的数据,如何从遥感影像中有效、准确地提取到有用信息成为研究的热点。对光学遥感影像进行分割,旨在对不同区域进行语义标记,对不同类型地物进行精确划分。变化检测对多时相影像标记其变化区域,是获取地区实时态势信息的重要手段,对自然灾害防治、战场毁伤评估等领域有着诸多应用价值。机场作为重要的基础设施,无论是民用还是军用都发挥着无可替代的作用。本文首先针对现有研究机场公开数
学位
温度参量与人类生活密切相关,对其准确测量在工农业生产、国防军工、科研检测等领域有着十分重要的意义。随着计算机技术的迅速发展和CCD相机性能的不断提高,基于CCD图像的温度场三维重建获得了越来越多研究人员的关注。针对现有的基于火焰图像的温度场重建方法存在迭代速度慢、重建精度较低等问题,本文研究了基于改进的迭代算法的火焰图像三维温度场重建方法,主要工作包括:1、针对联合代数重建算法(Simultane
学位
工业过程报警因果分析和溯源能够辅助操作人员及时发现报警根源,对于保障工业生产过程的安全、平稳运行具有重要意义。目前的工业过程报警管理技术通常是基于过程参数的连续数据分析,然而,过程报警的二值数据往往与其过程变量的连续数据并不具有传播特征的一致性。为此,本论文确定了研究基于报警二值序列进行其因果分析和报警溯源的技术思想。论文完成的主要工作和取得的成果如下:1、针对工业过程报警二值序列数据,提出了采用
学位
为了降低汽车机械式变速器传动机构的复杂性,建立多目标可靠性优化设计的数学模型。凭借MATLAB软件的扩展优势,将MATLAB软件应用于变速传动机构的优化设计中,有利于实现系统任意规模的编程。采用MATLAB工具箱中的fmincon函数对约束问题进行求解。为保证汽车机械式变速器轻量化设计与可靠性之间的有效平衡,将变速器齿轮的体积缩小至最低。利用实例分析的方式完成优化程序设计,经过多目标可靠性优化的汽
期刊
地震勘探是利用地震勘探设备接收震源反射的地震波,通过数据分析可以了解地质构造。节点式采集系统具有勘测深度大,施工灵活和效率高等优点,是地球勘探中解决煤炭、石油和天然气勘探问题最重要的方法之一。随着能源需求量的增加和勘探成本的降低,对勘探设备精度的要求也越来越高,对现有地震勘探技术的数据处理能力、传输速率及实时性效率也提出了新要求。针对地质条件较为复杂的地带,传统的有缆式地震勘探数据采集系统需要大量
学位
对于轻组分占优的三元物系的分离,隔离壁位于上端的上置隔离壁精馏塔(Top Dividing Wall Column:TDWC)能够显著降低系统能耗(与常规精馏流程相比),但其塔顶与塔底之间的温差较大,即系统的不可逆性较高,仍有进一步改进的可能性。为了解决这一问题,本文给出了一种分离轻组分占优的三元窄沸点物系的内部热耦合-上置隔壁塔(Internal Thermally Coupled-Top Di
学位
嘌呤是生命体中核酸碱基端的主要成分,是一种有机氮杂芳环分子,结构上由一个缺电子的嘧啶环和一个富电子的咪唑环构成。嘌呤骨架常见于药物分子,这类分子在抗微生物、抗真菌、抗肿瘤、抗病毒等方面都有显著的应用前景。因此近几十年来,嘌呤的结构修饰一直受到广大科研工作人员的关注。寻找构建有不同取代结构的嘌呤衍生物,探索其潜在的生理和药物价值,是该领域目前的研究方向。嘌呤C-2、C-6、C-8位可以通过取代等方式
学位