基于迁移学习和细粒度特征的中国英语学习者多维度作文评分模型的构建

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:simple69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作文是评估二语和外语学习者语言学习成果的有力工具。近年来随着计算语言学、自然语言处理和深度学习技术的蓬勃发展,作文自动评分在模型构建的可解释性和泛化能力方面得到显著提升。但现有研究在以下方面仍亟待改进。(1)传统特征提取方法:议论文写作是大规模考试中最常见的文体,绝大多数研究注重探讨与议论文整体作文质量相关的语言特征。很少有研究探讨与中国英语学习者不同文体、不同评分维度作文质量相关的语言特征。此外,学者们认为基于英语母语者的作文自动评分系统并不适合中国英语学习者,因为中国英语学习者在不同文体、不同评分维度层面与作文质量相关的语言特征往往不同于英语母语者。且在模型构建中以线性回归方法为主,提取的语言特征有限,导致模型的性能和泛化能力较低。(2)神经网络方法:基于监督学习的自动评分模型通常需要大量标注数据,然而目前公开可用的多维度评分语料库数据匮乏。预训练语言模型和多任务迁移学习凭借从大量数据中预先学习通用的知识表示和底层信息共享提升模型的泛化能力和性能,但是很少有研究探讨其在多维度作文评分模型构建中的有效性。(3)融合方法:尽管基于神经网络方法,模型性能和泛化能力得到显着提高,但深度学习“黑匣子”中提取的语言特征仍然未知,存在解释力不足的缺陷。研究者们尝试通过融合传统特征提取方法和神经网络方法的优势构建作文自动评分模型,却仅提取有限的与作文总体评分相关的表层语言特征,忽视与分项式作文质量相关的细粒度特征。针对上述问题,本研究基于预训练语言模型BERT和细粒度特征的融合方法,构建适用于中国英语学习者的多维度作文自动评分模型。通过融合传统特征提取方法和神经网络方法的优势,提升中国英语学习者多维度作文自动评分模型的可解释性和泛化能力。首先,利用前沿的语料分析软件,提取中国英语学习者各维度的细粒度特征指标。通过标准化、正态分布、多重共线性与主成分分析对各维度特征指标进行优化。针对中国英语学习者不同文体(议论文、说明文和记叙文),探讨与写作任务完成情况维度、连贯和衔接维度、词汇丰富程度维度、语法多样性与准确性维度以及整体评分维度相关的细粒度特征。在确定不同文体模型的各维度输入特征之后,本研究采用线性和非线性算法分别构建基于传统特征提取的模型,结果表明基于随机森林回归的非线性作文自动评分模型最优,其在各文体和各评分维度建模中都达到最高的绝对准确率。其次,本研究通过预训练语言模型BERT和多任务迁移学习方法将多文体和多维度的底层信息共享以此提升模型性能。与传统特征提取方法相比,神经网络方法不仅能通过多任务共同学习来增强目标域的泛化能力,而且避免手动特征提取导致的文本信息丢失问题。多维度评分任务结果表明,BERT-MTL-finetune的模型性能最优,其绝对准确率在多维度评分任务达到82.7%至91.2%。在多项式评分任务中,BERT-MTL-finetune通过共享各评分维度的底层信息提升模型性能;在多文体评分任务中,BERT-MTL-finetune通过增加的样本量和各文体的共享底层信息提升模型的性能和泛化能力。最后,本研究通过融合BERT迁移学习和细粒度特征的优势,提升中国英语学习者的多维度作文自动评分模型的可解释性和泛化能力。多维度评分任务结果表明,融合方法BERT-MTL-finetune+Features优于神经网络方法BERT-MTL-finetune。绝对准确率在各评分维度达到91.2%至96.9%,临近准确率在所有评分维度达到100%。BERT-MTL-finetune+Features通过不同文体和评分维度的底层共享表示提升模型的性能和泛化能力。与神经网络方法对比结果表明,细粒度特征对于预测中国英语学习者不同文体的写作质量是有效的。其次,为考察各维度特征缺失对模型总体性能的影响,依次对各维度特征进行删减,结果表明,写作任务完成情况这一维度的语言特征的缺失对模型的性能影响最大。词汇丰富程度这一维度的缺失对模型的性能影响最小。通过与目前中国英语学习者作文自动评分系统的对比表明,本文所提出的多维度作文自动评分模型对于评估中国英语学习者不同文体和不同评分维度的写作质量是有效的。本研究将传统特征方法和神经网络方法相融合,构建中国英语学习者多维度作文自动评分模型,为揭示深度学习“黑匣子”中的语言特征以及利用预训练语言模型进行多维度作文自动评分任务的相关研究提供新思路。此外,研究结果对探讨中国英语学习者在不同文体、不同评分维度层面与作文质量相关的语言特征研究具有重要的理论意义。同时,外语教师可以根据不同文体、不同评分维度的语言特征反馈,进行多元化、个性化的写作教学。最后,本研究对语料库语言学领域也具有较高的应用价值,可为构建具有中国英语学习者多维度写作语料库的建设提供建议。
其他文献
发展廉价、高效、反应条件温和的催化体系,实现精准化学合成和转换,已成为合成化学发展的基本要求和战略方向。传统过渡金属催化体系中,通常只有金属中心参与化学键的活化与形成,金属中心的化学价态随催化进程发生改变,配体仅起到稳定催化剂的作用。在“金属-配体”协同(Metal-Ligand Cooperation,MLC)催化体系中,配体协同金属参与化学键的活化和形成,金属中心的化学价态不发生改变,使得反应
学位
随着人工智能时代的到来,编程教育和STEM教育逐渐进入基础教育领域,而Python作为一种人工智能基础语言也逐渐受到关注,许多中小学也开始选择Python进行编程教学。在人工智能时代,如何将人工智能与中小学信息技术学科相融合,达成人工智能时代的人才培养目标?如何合理运用人工智能,借助STEM理念培养学习者的“5C”能力?基于此,本研究构建了人工智能背景下初中编程STEM教学模式并开展了教学实践,旨
学位
粒子物理学中的标准模型在过去几十年里被实验精确检验,尤其是2012年在大型强子对撞机上发现了 Higgs粒子标志着标准模型的成功。随着实验的进步、理论的发展,人们发现标准模型并不是完备的,仍然存在一些它无法解决的问题。这就表明标准模型需要进一步扩展,对超出标准模型新物理的探索成为目前粒子物理的主要研究目标之一。本文的主要研究工作是在高能对撞机上寻找W’的产生信号以及探索与中微子质量起源相关的唯象学
学位
随着后疫情时代的开启,全世界服务行业在遭受停摆和冲击之后,加之消费者在整体经济形势下滑的压力下,消费回归理性,更加注重性价比,企业迫切需要调整组织效率,降低成本,提升企业在市场中的竞争力,以争取有限市场的更多份额。原创于稻盛和夫的阿米巴经营模式,近十年来在中国的企业中盛行,其贯彻的销售最大化,成本最小化,将组织单元分解成独立的利润中心核算,从而提升人效的实践管理模式,在这个时代更受追捧,但如何运用
学位
大规模储能技术能够将可再生能源电力进行高效存储,突破其由于波动性及间歇性导致的发展瓶颈。而电化学储能可以快速、高效、低成本地利用电化学反应实现化学能和电能之间的相互转化,已成为大规模电网储能技术的关键发展领域之一。液态金属电池具有独特的三层全液态自分层结构与导电特性,无隔膜等特殊材料和技术的限制,电池组装工艺简单方便、制造成本较低、易于放大生产。而且,电极可以有效避免传统电池中枝晶生长、相变及晶粒
学位
随着石油、煤炭、天然气等常规能源长时间的大量开采,地球上化石能源逐渐枯竭。由于其不可再生性,在不远的将来,以化石能源为主的国家,出现能源危机的概率大大增加。为了避免将来出现能源危机、改变化石能源环境污染严重的状况,全球各国政府将视线聚焦到以风、光为主的可再生能源上,加大了资金扶持、技术研发的投入。其中,光伏行业迅速壮大,2020年新增并网光伏发电装机容量为4820万千瓦,累计装机容量为2.5亿千瓦
学位
近年来,越来越多的研究者在钴基高温合金中发现和获得具有γ’(L12)和γ(fcc)两相的组织,这些新发现为设计新型钴基高温合金的研发提供了新思路。已报道的新型钴基高温合金大多数为三元、四元和五元体系,低组元体系新型钴基高温合金的综合性能较差,很难满足高温合金复杂的服役环境。多元合金化是提高高温合金综合性能常用的重要方法之一。利用相图计算(CALPHAD)方法可以获得多组元高温合金在平衡和非平衡态下
学位
铁电压电陶瓷作为一种实现电能-机械能相互转换的功能材料,广泛地应用于各种传感器、驱动器和换能器等器件中。然而,高性能压电材料的种类目前相对较少,研究和开发新型高性能压电材料,对进一步提升压电功能器件的综合性能具有重要意义。因为复杂多元化合物的高随机场能诱发不稳定的极化,有利于压电效应的提升,所以本文基于钙钛矿型压电材料,设计了五种复杂的多元铅基化合物体系,系统地研究了复杂多元铅基体系的铁电、压电、
学位
由于Ni、Mo的高成本以及热带海洋大气环境严苛的服役参数,镍钼低合金钢的实际应用受到极大限制。Cu作为提高钢强度和耐蚀性的有效元素被广泛应用,相对低成本的Cu也为钢的合金化提供良好可行性。然而Cu对镍钼低合金钢热带海洋大气环境耐蚀性影响尚不清晰,限制Cu在该环境中的合金化应用。本文通过真空冶炼和热轧制技术制备五种含Cu量的镍钼低合金钢,通过室内模拟实验和加速实验,结合显微组织表征、电化学测试及物相
学位
以铅基钙钛矿型铁电压电陶瓷为基础的传感器、换能器和制动器等被广泛应用于电子通讯、海洋探测、医学诊断、地质勘探和航空航天等关系国计民生的重要领域。建立压电陶瓷结构和机电性能之间的联系是深入理解压电机理以及开发新的高性能压电陶瓷材料的基础。本论文首先基于原位电场高能同步辐射衍射技术,深入研究了相结构、电场诱导的相转变、晶格应变以及铁电畴翻转与压电行为之间的耦合关系;随后借助中子衍射、基于中子全散射的原
学位