基于深度学习的问题难度预测方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zym_Java
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的普及,以及在线教育的人数突破新高,越来越多的问题文本数据被上传至互联网中。网络中存在大量的未标注问题数据,对于用户的选择造成了困扰,用户很难从中分辨出问题的难度。为了使得用户能够更好地选择自己适合的问题难度,节省用户筛选问题的时间,帮助用户进行个性化学习,对于问题难度的预测变成一个亟待解决的问题。问题难度预测是教育数据挖掘领域中重要的问题之一。现有的问题难度预测模型基于专业人员对问题难度进行的预估计,或从大量的用户做题记录中挖掘出相关的特征信息。但是这样的做法受人为主观因素的影响比较大,且效率比较低下,需要一种新的模型来准确、快速预测问题的难度。对于问题难度预测任务,本文将使用自然语言处理中数据增强、神经网络语言模型等方法,分析并利用问题的文本信息,来预测问题的难度。针对于问题难度预测中存在的问题,文本采用了基于注意力机制和多任务学习的方法进行问题难度预测。第一,利用基于注意力机制的神经网络模型来增强问题文本数据集。第二,利用多任务学习来提升问题难度预测的准确性。本文的主要工作如下:(1)通过网络爬虫技术,分别从四个不同的在线判题系统中获取不同的数据集,并且将这些获取的数据进行了预处理,并根据用户做题信息将问题的难度进行了标注分类。(2)提出了一种基于注意力机制的数据增强模型DASA(data augmentation based on self-attention)用于问题难度预测任务。该数据增强模型使用文本随机遮掩与自注意力机制。在实验中,通过将DASA与自然语言处理中常用的数据增强方法在多个问题难度数据集上进行对比,实验证明使用DASA进行数据增强的数据集在模型准确性上有着显著的提高。(3)由于某一学科中问题的数据集偏少,且在不同的在线学习平台中问题的内容分布有很大的不同,为了减少所需要的数据集信息,进一步提高问题难度预测的准确性并减少训练时间,本文将多任务学习模型运用于BERT(Bidirectional Encoder Representation from Transformers)模型中,提出了一种基于多任务的MTBERT(multitask BERT)问题难度预测模型。让MTBERT模型共享来自不同的数据集的特征,从而提升模型的泛化能力。在Leet Code、ZOJ等多个真实数据集中进行实验,对比了传统神经网络和原版BERT模型,从而验证了该方法的有效性。最后实验表明,利用数据增强、神经网络语言模型等技术,可以有效地提高问题难度预测的准确性与模型训练的效率。
其他文献
大规模多输入多输出(MIMO)和设备到设备(D2D)通信技术在实现高频谱效率方面发挥了巨大的优势,已成为5G和B5G无线通信网络中具有前景的关键技术,并有望成为6G的重要组成部分。准确信道状态信息(CSI)的获取是实现高频谱效率的基础,目前CSI由基站接收导频利用信道估计技术来获取。受限于相干时间,导频序列无法满足大规模MIMO系统的所有用户实现导频正交。因此,用户不可避免的共享相同的导频,导致了
随着社会化商务的发展,人们在电商平台购物后通常会分享一些购物评论。这些评论包含着消费者对商品的观点、态度和情感,能够对其他消费者购买决策产生重要影响,也是生产者和商家获取用户需求、改进产品设计或销售策略的重要依据。论文使用深度学习的方法,利用大规模评论数据进行细粒度情感分析获取用户痛点,旨在帮助商家寻找用户需求达到精准营销的目的。为获取细粒度情感研究用户痛点,论文使用了两种属性级情感分析方法,以期
第三代半导体中氮化铟(In N)、氮化镓(Ga N)、氮化铝(Al N)和由其组成的多元合金化合物等III族氮化物的研究最为广泛,该类材料统称为Ga N基半导体材料。Ga N基半导体材料的带隙由0.7 e V(In N)到6.2 e V(Al N)均可调控,且热导率较高、电子饱和漂移速率较大、易制备异质结、易在沟道处形成二维电子气(2DEG),目前在高温大功率、高频微波、激光器、LED照明等功率电
由于网络系统内部用户了解网络结构及其安全协议,对网络资源有访问权限以及其威胁行为难以被辨识,其发起的攻击造成的后果甚至远远大于外部攻击,这也使得内部威胁成为近年来异常检测领域最具挑战性的问题之一。现有的内部威胁检测算法存在误报率高、精度受限、对样本需求量大且很少考虑“人”作为内部威胁这一主体因素的问题,忽略用户间的相似性对发生威胁攻击的影响。基于此,论文针对内部威胁检测及预警方法进行研究,旨在提高
近年来,智能手机安全性的问题越来越受人们关注,用户识别认证在保证智能手机安全方面扮演着重要的角色。随着对便携式设备安全性要求的提高,针对智能手机已经提出了各种各样的用户身份认证技术,其中包括基于加速度计数据的身份认证。然而,基于加速度计数据采集的时间序列信号非常复杂,信号具有高度非平稳特性,信号的统计量特征随时间变化很大,因此给用户识别研究带来了挑战。在这项工作中,采用十个不同用户在步行、下楼和上
在现代军事和民事通信领域中,VHF/UHF频段车载天线应用愈加广泛,而传统的窄带天线已无法更好地适应日益复杂的电磁环境和通信需求。因此,车载天线的主要研究方向就是宽带与小型化。本文根据实际工程需要,利用多工器,设计一副单端口VHF/UHF频段宽带小型化天线。主要研究内容如下:1、VHF频段宽带天线的设计。为满足车载架设环境,该天线类型为鞭状天线。本文利用天线辐射体共用思想,设计一种单、偶极子辐射体
HDR(High Dynamic Range,HDR)图像从出现到走进大众的日常生活中,一直是显示领域的关注焦点。由于普通成像设备中光学采集模组进行实景拍摄时捕获到的动态范围远低于实景动态范围,在成像时难以将实景的光影轮廓完整显示出来。基于多曝光的高动态范围成像技术能够有效克服成像设备硬件的局限性,通过在实景中连续拍摄一组图像,利用加权融合的方式,使得图像能够记录下更高的动态范围。因此,本文对高动
图像分类技术在生产生活中有着广泛的应用。然而,在许多应用场景中,需要对外观十分相似的类别进行分类,传统的图像分类技术难以满足这一需求,因此细粒度图像分类就成了图像分类领域一个重要的研究方向。细粒度图像分类也有广泛的应用场景,比如自然保护区的生物识别、无人超市的商品识别、交通路口的车辆识别等,但是由于“类内差异大,类间差异小”等问题,细粒度图像分类仍然是一个具有挑战性的任务,尚无法满足实际应用的需求
黑客或恶意攻击者通过各种方法入侵网络,导致网络环境面临着大量具有针对性、隐蔽性和渗透性的潜在威胁,网络安全面临着严峻的挑战。入侵检测系统(Intrusion Detection System,IDS)作为安全防御系统被用来检测网络环境是否存在入侵行为,并针对各种入侵行为产生相应的报警数据,便于安全管理人员采取相应的防御措施,然而IDS在实际应用中会产生大量冗余、错误的报警,使得管理人员难以从中找到
视频中人体行为的自动识别是指从原始视频数据中自动识别出对应的人类动作。人体行为识别是进行视频语义理解、视频结构化描述的关键技术。相较于视频中的车辆的识别,人体行为由于其行为种类多,就需要更准确地识别。而且,在获取的视频中,由于存在着各种客观因素,如视频的画面抖动、复杂背景、视角变化等。对此,现有的人体视频行为识别算法对于以上这些问题的处理仍然受限。本文通过利用时空信息融合,分析视频中的关键人体行为