论文部分内容阅读
摘要: 与一般的创造性思维测评量表相比,PISA2021创造性思维有其独特的评分方式。该评分方式具有标准的评分规定体系,从“产生多样性想法”“产生创造性想法”“评价和改进想法”三个维度进行评分,涉及“文字表达”“视觉表达”“科学问题解决”“社会问题解决”等四个领域的任务分配,具有评分规定标准化、重视评分者信度、开放性任务和灵活的评分方式等特点。PISA2021创造性思维评分逻辑对于我国义务教育科学教育质量监测如何融入创造性思维具有启发意义。
关键词: 创造性思维; PISA2021; 评分方式; 评分逻辑
文章编号: 10056629(2020)12007207
中图分类号: G6338
文献标识码: B
1引言
PISA是由经濟合作与发展组织(OECD)开发的三年一次的国际学生评估项目,包含阅读、数学和科学三大核心测试领域。该项目于2000年第一次实施,测试对象为15周岁的青少年,其目的是衡量学生在阅读、数学和科学素养、调节学习的能力、对不同科目的兴趣、自我效能、自我概念、自尊以及社会经济背景等领域的成绩[1]。同时,PISA也会对家长、教师和学校领导进行相关的问卷调查,以确保从多个方面多个层次来分析其影响因素。PISA一直着重于学生对所学知识的运用和各方面素养的发展,而不是简单地复制课堂所学知识。在原有的基础上,PISA陆续加入了问题解决能力测评(2003)、数字化测评(2009)、财经素养测评(2012)、合作问题测评(2015)、全球胜任力测评(2018),在全世界引起了广泛关注和强烈反响,并在即将到来的PISA2021中增加了创造性思维测评。国际上对PISA数据的信息价值达成了普遍共识,经合组织通过PISA已影响到国家一级的教育决策[2]。
创造性思维是建立在想象力、遗传与天赋、智商、思维联结的基础上,进而发展为强调独创性、发散性和适切性的一种原生性思维[3]。20世纪中期,吉尔福特发表了关于“创造力”的报告,创造性思维作为创造力的主要因素被大量研究和探讨。2010年经合组织在颁布的《OECD创新战略: 从明日起抢占先机》中,也强调了创造性思维的重要性。创新的核心是创造性人才,而创造性人才的核心是人的创造性思维[4]。创造性思维可以促进个人能力,如元认知能力、问题解决能力、人际关系能力等,也能在科学、技术、哲学、艺术等多个领域中产生推动社会发展的创新想法和见解。创造性思维是一种具体的能力,是人们均可拥有的,这一点为创造性思维的测评奠定了基础。
PISA2021关注创造性思维测评,这将为大规模的创造性思维理论与实践研究提供范例。本文在介绍PISA2021创造性思维测评框架的基础上,着重介绍其评分方式,进一步分析其评分逻辑,为我国义务教育阶段科学教育质量监测提供参考。
2PISA2021创造性思维测评框架
OECD教育研究与创新中心(Centre for Educational Research and Innovation, CERI)发布的《PISA2021创造性思维框架草案(第三版)》中对创造性思维定义为“能够有效地参与创意的产生、评估和改进,能够生成新颖的方案,并能够促进知识进步和想象力表达的一种能力”[5]。这个定义强调了所有学生都需要有效地参与产生想法的实践,重视想法的相关性和新颖性,并且能够通过反复思考得到有效且满意的结果。传统的二分法将创造力的研究分为日常创造性(LittleC)和创造性成就(BigC)。LittleC几乎人人都具有,包含的是普通人平常生活的各个方面,如人们把易拉罐做成洗澡的喷头就属于这种创造力;BigC只有伟人才具备,一般解决特别难的问题,或者创造出天才的作品,如爱因斯坦提出相对论、达·芬奇的艺术创作等都能体现出该创造力[6]。文献一致认为,LittleC创造力可以通过实践来发展,通过教育来磨炼。因此,PISA2021创造性思维测试将侧重于与LittleC创造力相关的任务,尽可能地降低先天才能对其表现的影响,更加重视个人参与创造性思维的可塑性。
PISA2021创造性思维测评框架包含“课堂上创造性思维的影响因素和表现形式关系模型”以及“创造性思维测试的能力模型”这两大模型。“课堂上创造性思维的影响因素和表现形式关系模型”建立在2017年经合组织提出的创造性思维五维模型的基础上,由个人因素、社会因素、成就与进展这3个方面所组成[7]。“社会因素”会对另外两个方面产生影响,而“个人因素”同“成就与进展”两者之间会相互影响。其中,个人因素包含6个要素: 认知技能、领域准备、开放性、协作、目标导向和自我信念、任务动机;社会因素包含3个要素: 文化规范和期望、教育方法、学校和课堂气氛;表现形式(成就与进展)包含3个方面: 创造性表达、知识创造、创造性地解决问题。“创造性思维测试的能力模型”涉及四领域三维度:“四领域”包括文字表达、视觉表达、科学问题解决和社会问题解决;“三维度”分别是: 产生多样性想法、产生创造性想法、评价和改进想法。PISA2021创造性思维测评框架具有较强的可实施性和指向性,为测评高阶思维能力提供了新的模式。
3PISA2021创造性思维测评评分方式
3.1评分规定体系
PISA2021创造性思维测评基于测评指标和任务,构建了具备可实施性的评分规定体系。该体系围绕“四领域三维度”进行任务分配,并以三维度作为评分切入点。在三维度中,第一个维度是“产生多样性想法”,侧重于学生跨领域灵活思考的能力,注重所产生想法的多样性和灵活性;第二个维度是“产生创造性想法”,该维度的评估建立在同一测试中其他学生的反应基础上,更侧重于学生寻找合适且原创方法的能力;第三个维度是“评价和改进想法”,侧重于学生对想法进行评估和改进的能力,达到对想法中的缺陷进行改进的目的。PISA2021根据三个维度之间不同的考查要求,制定了不同的评分方式,具有较强的实际操作性。例如“产生创造性想法”这一维度主要考查学生的回答是否“原创”,要求评分者对其进行判断和评分,在这一过程中编码指南也为其提供了足够多的示例,而不是单一的标准答案,这使得评分过程更加灵活。同时,该评分体系能很好地指导评分者依据编码指南对学生的回答进行判断,重视评分者之间的信度来确保评分的合理性。 3.2任务分配
PISA测评的一个重要目的是在国家间进行标准化的比较,但人与人对话互动中的不确定性以及多国语言的自然语言处理,给测试的标准化结果带来很大挑战[8]。基于其可行性的考虑,PISA2021创造性思维测评将基于计算机交互模式,测试时常为1个小时,题型分为选择题、建构题和交互式仿真任务。PISA2021创造性思维测评围绕“四领域三维度”来进行任务分配,四领域所包含的任务均属于“LittleC”范畴。其中“文字表达”“视觉表达”这两个领域侧重于“创造性的表达”,强调创造性思维参与个人内心世界与他人进行交流的过程。而“科学问题解决”和“社会问题解决”这两个领域则侧重于知识创造与创造性问题解决。为了维持领域之间的平衡,虽然每个领域内包含多重任务,但四个领域所分配的任务比例均为25%,而三个维度之间任务的分配有些许差异,其中“产生多样性想法”测试占比40%,剩下的两个维度则均占比30%(见图1)。
3.3评分方式
本次创造性思维测评由于其自身的独特性,尤其是开放式任务,必须使用适合所有参与国文化、语言以及人工评分的方法,使得测评评分存在很大的挑战。PISA2021创造性思维测评构建的题型与能力模型的四领域相对应,但不是每个领域都完全包含3种题型,并
且在题型的分布上也有一定差异,不过相同的题型都遵循相同的格式和编码过程。回答的确切形式(如标题、解决方案、设计)因领域和任务而有差异,导致学生的回答在形式上也有所不同,评估回答的多样性和创造性的具体标准也将不同(见图2)。
在“产生多样性想法”这一维度,学生的回答不能是单一的,通常需要两个或三个回答。这些项目的编码过程有两个步骤: 一是确定学生的回答是否“适当”。对于特定的任务,“适当”可以理解为与特定任务内容相关。这意味着需要排除“不适当”的回答: 删除没有意义的文本条目(例如随机打字)、不尊重任务形式的文本条目(例如要求设计一个标题,学生却给出的是故事创意)、与任务完全无关的条目(如任务要求学生提出节约用水的创新建议,却输入“多吃樱桃派”等毫无关联的内容);二是确定回答之间是否“足够不同”。编码指南为四领域的任务提供了可以被判断为不同答案的样例,并且提供了界定两个回答是否足够不同的客观标准: (1)在“文字表达”领域中要求学生设计不同标题,可以用是否使用同义词来进行判断,若两个标题仅仅是进行了同义词的替换,则不符合要求;(2)在“视觉表达”领域中要求学生创建节日标志,判断标准是两个节日标志是否使用不同的形状组合起来以生成不同的图像;(3)对于“社会和科学问题解决”这两个领域的任务,编码指南中将会列出预先定义的“不同类别”的回答,来帮助评分人员进行判断: 如在要求学生提出节约用水方法的任务中,“短时间淋浴”和“对生活用水进行二次利用”则属于不同类别。
在“产生创造性想法”这一维度,通常只要求学生提供一个回答。根据具体的领域和任务,这些回答在形式上有所不同,可能是一个短篇故事的想法,一个社会问题或一个科学研究问题的解决方案。这个项目的编码过程有三个步骤,第一个步骤同“产生多样性想法”这一维度相同,均是确定学生的回答是否“适当”。之后的环节要求编码器必须确定回答是否为“原创”,确定“原创”有两个步骤: (1)确定主题是否原创。编码指南中包含了每项任务最常规的主题列表,如果一个适当的回答不符合列出的常规主题之一,则被编码为原创的;(2)判断方法是否原创。编码指南为每个任务提供了原创方法的例子,如果回答包含在编码指南最常规的方法列表中,但是它包含原创方法,则在编码过程的下一步中它仍然可以被认为是“原创”的。原创方法可以是通过一些创新方式增强问题解决方案的可实施性,或者在设计中使用普通图像但以新的方式呈现等。在确定一个回答是否为“原创”时,建立双重标准也是为了确保同时考虑到创意概念(主题)和创意实现(方法)的原创性。编码指南提供的常规主题列表和原始方法示例都来源于实证研究中对学生真实回答的分析,这些列表将在进行现场试验后进一步更新,以确保能够反映不同参与国或地区学生的常规回答。虽然这种给原创性打分的方法可能无法让最有创造性的回答脱颖而出,但它有一个明显的优势,就是不会受到偏爱中间点或极端点的评分方式的影响。
同样地,在“评估与改进想法”这一维度,通常也只要求学生提供一个回答。任务通常要求学生以一种新颖的方式改变一个给定的想法。任务的形式也可能有所不同: 一个创意的故事结尾,一个改进的设计,一个让社交活动更有趣的创意,或者让技术发明更有用或更具创新性的方法。首先是确定学生的回答是否“适当”,这里的“适当”不仅仅要求与任务形式是相关的,还得是一种改进。编码指南针对任务的具體情境,提供了不同类型的改进回答作为解释和示例,之后编码器将会根据编码指南确定回答是否为“原创的改进”。如果改进的回答与列出的常规改进不一致,那么它将被判断为是原创的;如果改进的类型是常规的,但是实施的方法或对创意的描述包含原创元素,那么评分者仍可以将回答编码为原创。
然后评分员根据每个维度的评分标准对学生的回答进行判断,并给予分数。任务属于“产生多样性想法”这一维度,若学生所有回答均“适当”且“足够不同”,则为满分;若只有两个或三个答案是合适的,且只有两个“足够不同”,则部分给分;其他情况,则为零分。另外两个维度的任务评分类似,若回答既“适当”又符合“原创”,则为满分;若仅仅只是符合“适当”这一个条件,则部分给分;其余情况,则为零分。
4案例分析
PISA2021提供了测试样题,四个领域分别设置不同类型、不同主题的认知测试单元,每个单元的样题基本涉及三个维度的考查。
“文字表达”领域示例单元的主题是“根据图片创造故事”,这个单元不需要高水平的先验知识,但是学生的表达能力会影响学习成绩。三个任务分别是: 要求学生根据图片创造出2个不同的故事、要求学生根据6张图片写一个创造性的故事、要求学生根据朋友写的故事对其进行创意续写,这三个任务与三个维度一一对应。 “社会问题解决”领域的示例单元主题为“节约用水的社会问题”,其任务包括: 描述3种不同的节约用水途径、想出1个创造性的方法向潜在用户宣传该应用程序、对应用程序想出1个改进方法,这三个任务与三个维度一一对应。
“科学问题解决”领域的主题为“对标准自行车进行改造”,本单元避免了形成封闭式问题的单一解决方案,需要学生进行开放式回答,找到有创意的解决方案。首先要求学生想出3种标准自行车改进方案;其次要求学生对自行车防盗装置进行改进;最后要求学生想出一个重新使用自行车踏板的新颖方案,这三个任务同样与三个维度一一对应。
“视觉表达”领域示例单元的主题为“利用虚拟画图工具设计美食节标志”,前两个任务要求学生分别设计2个不同的节日标志,属于“产生多样性想法”维度。最后一个任务要求学生根据美食节主题改进之前设计的标志,属于“评估与改进想法”维度。
以“社会问题解决”领域样题为例,图3展示了“社会问题解决”领域中的一个示例单元(节约用水)。
在这个例子中,学生通过三项任务来解决节约用水的社会问题。节约用水以及减少对水资源的浪费是全世界许多学生都熟悉的话题,也是学校经常提到的话题,学生对其具有一定的先验知识。虽然对问题的先验知识可能会影响学生在本单元生成多样化和创造性解决方案的能力,但先验知识和创造性思维能力之间的关系并不明显。先验知识可能会促进反应的生成,但反过来也可能会降低反应的独创性。具体评分方式分析如下(见图4)。
第一个任务要求学生想出三种节约用水的不同方法,属于“产生多样性想法”这一维度。按照这一维度的评分方式,第一步是判断学生的回答是否“适当”,如果这个方法是实际可行且能达到节约用水的目的,那么可以判断为是“适当”的。值得强调的是一个解决方案只要在某种程度上能够达到节省家庭用水的目的,不管是不是最佳方案都可以被认为是“适当”的;第二步是判断回答是否“足够不同”,想要体现想法的“不同”,答题者必须在所提出的方案中使用不同的方法、工具或执行者。同一类别的响应视为“相同”,编码指南将包含一份尽可能详细的常规解决方案分类表作为判断依据。
第二个任务涉及三个维度中的“产生创造性想法”,在该任务中提到了用来奖励用户节约用水行为的智能手机应用程序,要求学生提出一种创造性的方法向潜在用户宣传该应用程序。按照“产生创造性想法”这一维度的评分方式,首先判断回答是否“适当”,这项任务中的“适当”想法类似于广告策略,其目的是可以为应用程序做推广,若回答能达到这一目的,则可编码为“适当”;接着是确定是否“原创”,评分者将参考特定任务的编码指南,以确定学生的回答在主题或方法上是否是常规的,若属于常规主题或常规方法,则不符合要求。这个任务的常规主题例子可以是: (1)张贴海报或广告牌来宣传这个应用程序;(2)播放一个电视广告,展示干旱的负面影响及其应用。如果学生的反应可以归类到这些常规的主题中,但采用了非常规的方法,它仍然可以被认为是原创的,编码指南中提供了非常规方法的示例。
第三个任务是要求学生对应用程序提出一个原创的改进建议,以解决用户保留率低的问题,这一任务涉及“评估和改进想法”这一维度。第一步仍然是判断回答是否是“适当”的,该项目的“适当”想法需要达到能够通过提供额外激励来改进应用程序,让人们长期使用此应用软件的目的;第二步则是判断是否为“原创的改进”,依据所提建议在主题或方法上的改进是否是非常规进行确定,若主题和方法都是常规的,则不符合要求,若属于主题常规,但方法原创,仍可以被认作是“原创的改进”。在每一个任务中,如果回答既适当又新颖,则为满分;回答仅仅符合适当,则部分给分;其他情况则为零分。5PISA2021创造性思维评分方式特点
5.1评分规定标准化
PISA2021根据创造性思维的表征特点,提出影响因素和表现形式关系模型以及能力模型,给出四领域能力测试的可行方法,基于测试重点和目标给出评价标准,共同构成操作性强的评价指标体系[10]。从三个维度切入,根据不同的领域和单元给出具体的评分方式(见图2),并利用计算机交互式测验来递送测试系统,捕捉行为数据,搜集响应数据信息,进行编码从而评分。这种方式保证了技术应用的可行性,为收集个体的反应、分析个体的表现提供了更便利的途径[11]。该评价指标体系实施性强,对评分者进行适当的培训,即可进行编码响应评分操作,极大地提升了大型测评的有效性。
5.2重视评分者信度
PISA2021创造性思维测评主要是开放式任务,就其本质而言会对评分的信度产生风险。好的评分信度和可比性是PISA测评的一个主要目标,验证编码方法是否切实可行非常重要,这就需要在投入大規模测评之前经过多个验证步骤和多次经验检查,来降低这一风险。评分方式是否可行显然取决于所产生的编码标准的质量,特别是要有严格的验证过程,以确保评分过程中不会出现文化偏见。鉴于这一点,PISA将要求参与国或地区的评分者就编码指南和标准中的内容以及语言提供反馈,并要求所有参与现场试验的评分者,而不仅仅是说英语的评分者,对大量翻译后的回答进行评分。这将揭示各国或地区在评分的宽松度方面是否存在系统性差异,并评估这些差异对最终得分的影响。
为了确定评分的准确性,PISA根据已有的实践经验,在现场试验和主调查期间,通过让多名评分者对每个人工编码的项目随机选择100个答案进行编码,来测量“评分者间的信度”,以检查编码的一致性。这项研究还将跨国进行,以检查各国或地区的系统评分偏差。“跨国评分者间的信度”是PISA2021创造性思维测评的一个重要设计标准,通过要求不同国家或地区的评分者对一组任务的10个回答(来自于在不同参与国或地区中真实的学生的项目回答)进行编码,来评估“跨国或地区评分者间的信度”。编码的可靠性不仅需要通过对一部分响应进行多重编码,还要通过仔细监控编码结果来建立。在形成评分标准之前,PISA2021创造性思维测评项目组将组织多场现场测评,对评分者之间的可靠性进行验证,以进一步确保评分的合理性。 5.3开放性任务,灵活的评分方式
绝大多数的测评(如数学、科学),其试题的标准答案通常由相关领域的学科专家制定,一般争议较少。为了让评分标准可以覆盖所有的可能情况,往往测试任务在设计上就已经尽量减少了开放性,但这样也在很大程度上削弱了测评任务的有效性[12]。PISA2021创造性思维测评拥有复杂的建构框架,采取开放性的任务和多样化的答案,其评分标准给出的也是尽可能多的示例,在评分方式上跟其他测评相比也更加灵活。这既是大规模创造性思维测评的重大突破,也是一次不容忽视的挑战。
6启示和建议
创新型人才的培养需要考虑人才的意识、思维与能力三方面,其中思维是意识向能力转化的关键[13]。提高国民创新素养、培养学生创造性思维是当前教育领域重要的任务之一。创造性思维作为21世纪人类必备技能之一,也是未来人类适应社会发展所必须的能力,其重要性显而易见。PISA2021创造性思维测评具有较大的实践意义,不仅可以让人们认识到培养学生创造性思维的重要性,还可以促进我国了解学生创造性思维的现状,从而更加清晰地认识到我国的优势和不足。同时,我们也可借鉴PISA2021创造性思维测试的理念、框架和方法,加以适当的调整,形成适合我国的教育测量方式。就目前而言,我国创新型人才储备和科技实力仍与西方国家存在差距,我国有必要反思当前的教育培养方式以及当前教育对创造性思维培养的限制,从而通过教育改革来提升学生的创造性思维水平[14]。
创造性思维作为一种复杂的能力,在测评中通过完成创造性任务得以展现,使得学生所具有的创造性思维能力可视化,这一测评方式对于高级思维的测试具有实践意义。PISA2021创造性思维开放性的任务、灵活的评分方式、严谨的编码过程,对于我国义务教育科学教育质量监测如何融入创造性思维具有启发意义。
参考文献:
[1]Therese N. Hopfenbeck, Kristine Grgen. The politics of PISA:
关键词: 创造性思维; PISA2021; 评分方式; 评分逻辑
文章编号: 10056629(2020)12007207
中图分类号: G6338
文献标识码: B
1引言
PISA是由经濟合作与发展组织(OECD)开发的三年一次的国际学生评估项目,包含阅读、数学和科学三大核心测试领域。该项目于2000年第一次实施,测试对象为15周岁的青少年,其目的是衡量学生在阅读、数学和科学素养、调节学习的能力、对不同科目的兴趣、自我效能、自我概念、自尊以及社会经济背景等领域的成绩[1]。同时,PISA也会对家长、教师和学校领导进行相关的问卷调查,以确保从多个方面多个层次来分析其影响因素。PISA一直着重于学生对所学知识的运用和各方面素养的发展,而不是简单地复制课堂所学知识。在原有的基础上,PISA陆续加入了问题解决能力测评(2003)、数字化测评(2009)、财经素养测评(2012)、合作问题测评(2015)、全球胜任力测评(2018),在全世界引起了广泛关注和强烈反响,并在即将到来的PISA2021中增加了创造性思维测评。国际上对PISA数据的信息价值达成了普遍共识,经合组织通过PISA已影响到国家一级的教育决策[2]。
创造性思维是建立在想象力、遗传与天赋、智商、思维联结的基础上,进而发展为强调独创性、发散性和适切性的一种原生性思维[3]。20世纪中期,吉尔福特发表了关于“创造力”的报告,创造性思维作为创造力的主要因素被大量研究和探讨。2010年经合组织在颁布的《OECD创新战略: 从明日起抢占先机》中,也强调了创造性思维的重要性。创新的核心是创造性人才,而创造性人才的核心是人的创造性思维[4]。创造性思维可以促进个人能力,如元认知能力、问题解决能力、人际关系能力等,也能在科学、技术、哲学、艺术等多个领域中产生推动社会发展的创新想法和见解。创造性思维是一种具体的能力,是人们均可拥有的,这一点为创造性思维的测评奠定了基础。
PISA2021关注创造性思维测评,这将为大规模的创造性思维理论与实践研究提供范例。本文在介绍PISA2021创造性思维测评框架的基础上,着重介绍其评分方式,进一步分析其评分逻辑,为我国义务教育阶段科学教育质量监测提供参考。
2PISA2021创造性思维测评框架
OECD教育研究与创新中心(Centre for Educational Research and Innovation, CERI)发布的《PISA2021创造性思维框架草案(第三版)》中对创造性思维定义为“能够有效地参与创意的产生、评估和改进,能够生成新颖的方案,并能够促进知识进步和想象力表达的一种能力”[5]。这个定义强调了所有学生都需要有效地参与产生想法的实践,重视想法的相关性和新颖性,并且能够通过反复思考得到有效且满意的结果。传统的二分法将创造力的研究分为日常创造性(LittleC)和创造性成就(BigC)。LittleC几乎人人都具有,包含的是普通人平常生活的各个方面,如人们把易拉罐做成洗澡的喷头就属于这种创造力;BigC只有伟人才具备,一般解决特别难的问题,或者创造出天才的作品,如爱因斯坦提出相对论、达·芬奇的艺术创作等都能体现出该创造力[6]。文献一致认为,LittleC创造力可以通过实践来发展,通过教育来磨炼。因此,PISA2021创造性思维测试将侧重于与LittleC创造力相关的任务,尽可能地降低先天才能对其表现的影响,更加重视个人参与创造性思维的可塑性。
PISA2021创造性思维测评框架包含“课堂上创造性思维的影响因素和表现形式关系模型”以及“创造性思维测试的能力模型”这两大模型。“课堂上创造性思维的影响因素和表现形式关系模型”建立在2017年经合组织提出的创造性思维五维模型的基础上,由个人因素、社会因素、成就与进展这3个方面所组成[7]。“社会因素”会对另外两个方面产生影响,而“个人因素”同“成就与进展”两者之间会相互影响。其中,个人因素包含6个要素: 认知技能、领域准备、开放性、协作、目标导向和自我信念、任务动机;社会因素包含3个要素: 文化规范和期望、教育方法、学校和课堂气氛;表现形式(成就与进展)包含3个方面: 创造性表达、知识创造、创造性地解决问题。“创造性思维测试的能力模型”涉及四领域三维度:“四领域”包括文字表达、视觉表达、科学问题解决和社会问题解决;“三维度”分别是: 产生多样性想法、产生创造性想法、评价和改进想法。PISA2021创造性思维测评框架具有较强的可实施性和指向性,为测评高阶思维能力提供了新的模式。
3PISA2021创造性思维测评评分方式
3.1评分规定体系
PISA2021创造性思维测评基于测评指标和任务,构建了具备可实施性的评分规定体系。该体系围绕“四领域三维度”进行任务分配,并以三维度作为评分切入点。在三维度中,第一个维度是“产生多样性想法”,侧重于学生跨领域灵活思考的能力,注重所产生想法的多样性和灵活性;第二个维度是“产生创造性想法”,该维度的评估建立在同一测试中其他学生的反应基础上,更侧重于学生寻找合适且原创方法的能力;第三个维度是“评价和改进想法”,侧重于学生对想法进行评估和改进的能力,达到对想法中的缺陷进行改进的目的。PISA2021根据三个维度之间不同的考查要求,制定了不同的评分方式,具有较强的实际操作性。例如“产生创造性想法”这一维度主要考查学生的回答是否“原创”,要求评分者对其进行判断和评分,在这一过程中编码指南也为其提供了足够多的示例,而不是单一的标准答案,这使得评分过程更加灵活。同时,该评分体系能很好地指导评分者依据编码指南对学生的回答进行判断,重视评分者之间的信度来确保评分的合理性。 3.2任务分配
PISA测评的一个重要目的是在国家间进行标准化的比较,但人与人对话互动中的不确定性以及多国语言的自然语言处理,给测试的标准化结果带来很大挑战[8]。基于其可行性的考虑,PISA2021创造性思维测评将基于计算机交互模式,测试时常为1个小时,题型分为选择题、建构题和交互式仿真任务。PISA2021创造性思维测评围绕“四领域三维度”来进行任务分配,四领域所包含的任务均属于“LittleC”范畴。其中“文字表达”“视觉表达”这两个领域侧重于“创造性的表达”,强调创造性思维参与个人内心世界与他人进行交流的过程。而“科学问题解决”和“社会问题解决”这两个领域则侧重于知识创造与创造性问题解决。为了维持领域之间的平衡,虽然每个领域内包含多重任务,但四个领域所分配的任务比例均为25%,而三个维度之间任务的分配有些许差异,其中“产生多样性想法”测试占比40%,剩下的两个维度则均占比30%(见图1)。
3.3评分方式
本次创造性思维测评由于其自身的独特性,尤其是开放式任务,必须使用适合所有参与国文化、语言以及人工评分的方法,使得测评评分存在很大的挑战。PISA2021创造性思维测评构建的题型与能力模型的四领域相对应,但不是每个领域都完全包含3种题型,并
且在题型的分布上也有一定差异,不过相同的题型都遵循相同的格式和编码过程。回答的确切形式(如标题、解决方案、设计)因领域和任务而有差异,导致学生的回答在形式上也有所不同,评估回答的多样性和创造性的具体标准也将不同(见图2)。
在“产生多样性想法”这一维度,学生的回答不能是单一的,通常需要两个或三个回答。这些项目的编码过程有两个步骤: 一是确定学生的回答是否“适当”。对于特定的任务,“适当”可以理解为与特定任务内容相关。这意味着需要排除“不适当”的回答: 删除没有意义的文本条目(例如随机打字)、不尊重任务形式的文本条目(例如要求设计一个标题,学生却给出的是故事创意)、与任务完全无关的条目(如任务要求学生提出节约用水的创新建议,却输入“多吃樱桃派”等毫无关联的内容);二是确定回答之间是否“足够不同”。编码指南为四领域的任务提供了可以被判断为不同答案的样例,并且提供了界定两个回答是否足够不同的客观标准: (1)在“文字表达”领域中要求学生设计不同标题,可以用是否使用同义词来进行判断,若两个标题仅仅是进行了同义词的替换,则不符合要求;(2)在“视觉表达”领域中要求学生创建节日标志,判断标准是两个节日标志是否使用不同的形状组合起来以生成不同的图像;(3)对于“社会和科学问题解决”这两个领域的任务,编码指南中将会列出预先定义的“不同类别”的回答,来帮助评分人员进行判断: 如在要求学生提出节约用水方法的任务中,“短时间淋浴”和“对生活用水进行二次利用”则属于不同类别。
在“产生创造性想法”这一维度,通常只要求学生提供一个回答。根据具体的领域和任务,这些回答在形式上有所不同,可能是一个短篇故事的想法,一个社会问题或一个科学研究问题的解决方案。这个项目的编码过程有三个步骤,第一个步骤同“产生多样性想法”这一维度相同,均是确定学生的回答是否“适当”。之后的环节要求编码器必须确定回答是否为“原创”,确定“原创”有两个步骤: (1)确定主题是否原创。编码指南中包含了每项任务最常规的主题列表,如果一个适当的回答不符合列出的常规主题之一,则被编码为原创的;(2)判断方法是否原创。编码指南为每个任务提供了原创方法的例子,如果回答包含在编码指南最常规的方法列表中,但是它包含原创方法,则在编码过程的下一步中它仍然可以被认为是“原创”的。原创方法可以是通过一些创新方式增强问题解决方案的可实施性,或者在设计中使用普通图像但以新的方式呈现等。在确定一个回答是否为“原创”时,建立双重标准也是为了确保同时考虑到创意概念(主题)和创意实现(方法)的原创性。编码指南提供的常规主题列表和原始方法示例都来源于实证研究中对学生真实回答的分析,这些列表将在进行现场试验后进一步更新,以确保能够反映不同参与国或地区学生的常规回答。虽然这种给原创性打分的方法可能无法让最有创造性的回答脱颖而出,但它有一个明显的优势,就是不会受到偏爱中间点或极端点的评分方式的影响。
同样地,在“评估与改进想法”这一维度,通常也只要求学生提供一个回答。任务通常要求学生以一种新颖的方式改变一个给定的想法。任务的形式也可能有所不同: 一个创意的故事结尾,一个改进的设计,一个让社交活动更有趣的创意,或者让技术发明更有用或更具创新性的方法。首先是确定学生的回答是否“适当”,这里的“适当”不仅仅要求与任务形式是相关的,还得是一种改进。编码指南针对任务的具體情境,提供了不同类型的改进回答作为解释和示例,之后编码器将会根据编码指南确定回答是否为“原创的改进”。如果改进的回答与列出的常规改进不一致,那么它将被判断为是原创的;如果改进的类型是常规的,但是实施的方法或对创意的描述包含原创元素,那么评分者仍可以将回答编码为原创。
然后评分员根据每个维度的评分标准对学生的回答进行判断,并给予分数。任务属于“产生多样性想法”这一维度,若学生所有回答均“适当”且“足够不同”,则为满分;若只有两个或三个答案是合适的,且只有两个“足够不同”,则部分给分;其他情况,则为零分。另外两个维度的任务评分类似,若回答既“适当”又符合“原创”,则为满分;若仅仅只是符合“适当”这一个条件,则部分给分;其余情况,则为零分。
4案例分析
PISA2021提供了测试样题,四个领域分别设置不同类型、不同主题的认知测试单元,每个单元的样题基本涉及三个维度的考查。
“文字表达”领域示例单元的主题是“根据图片创造故事”,这个单元不需要高水平的先验知识,但是学生的表达能力会影响学习成绩。三个任务分别是: 要求学生根据图片创造出2个不同的故事、要求学生根据6张图片写一个创造性的故事、要求学生根据朋友写的故事对其进行创意续写,这三个任务与三个维度一一对应。 “社会问题解决”领域的示例单元主题为“节约用水的社会问题”,其任务包括: 描述3种不同的节约用水途径、想出1个创造性的方法向潜在用户宣传该应用程序、对应用程序想出1个改进方法,这三个任务与三个维度一一对应。
“科学问题解决”领域的主题为“对标准自行车进行改造”,本单元避免了形成封闭式问题的单一解决方案,需要学生进行开放式回答,找到有创意的解决方案。首先要求学生想出3种标准自行车改进方案;其次要求学生对自行车防盗装置进行改进;最后要求学生想出一个重新使用自行车踏板的新颖方案,这三个任务同样与三个维度一一对应。
“视觉表达”领域示例单元的主题为“利用虚拟画图工具设计美食节标志”,前两个任务要求学生分别设计2个不同的节日标志,属于“产生多样性想法”维度。最后一个任务要求学生根据美食节主题改进之前设计的标志,属于“评估与改进想法”维度。
以“社会问题解决”领域样题为例,图3展示了“社会问题解决”领域中的一个示例单元(节约用水)。
在这个例子中,学生通过三项任务来解决节约用水的社会问题。节约用水以及减少对水资源的浪费是全世界许多学生都熟悉的话题,也是学校经常提到的话题,学生对其具有一定的先验知识。虽然对问题的先验知识可能会影响学生在本单元生成多样化和创造性解决方案的能力,但先验知识和创造性思维能力之间的关系并不明显。先验知识可能会促进反应的生成,但反过来也可能会降低反应的独创性。具体评分方式分析如下(见图4)。
第一个任务要求学生想出三种节约用水的不同方法,属于“产生多样性想法”这一维度。按照这一维度的评分方式,第一步是判断学生的回答是否“适当”,如果这个方法是实际可行且能达到节约用水的目的,那么可以判断为是“适当”的。值得强调的是一个解决方案只要在某种程度上能够达到节省家庭用水的目的,不管是不是最佳方案都可以被认为是“适当”的;第二步是判断回答是否“足够不同”,想要体现想法的“不同”,答题者必须在所提出的方案中使用不同的方法、工具或执行者。同一类别的响应视为“相同”,编码指南将包含一份尽可能详细的常规解决方案分类表作为判断依据。
第二个任务涉及三个维度中的“产生创造性想法”,在该任务中提到了用来奖励用户节约用水行为的智能手机应用程序,要求学生提出一种创造性的方法向潜在用户宣传该应用程序。按照“产生创造性想法”这一维度的评分方式,首先判断回答是否“适当”,这项任务中的“适当”想法类似于广告策略,其目的是可以为应用程序做推广,若回答能达到这一目的,则可编码为“适当”;接着是确定是否“原创”,评分者将参考特定任务的编码指南,以确定学生的回答在主题或方法上是否是常规的,若属于常规主题或常规方法,则不符合要求。这个任务的常规主题例子可以是: (1)张贴海报或广告牌来宣传这个应用程序;(2)播放一个电视广告,展示干旱的负面影响及其应用。如果学生的反应可以归类到这些常规的主题中,但采用了非常规的方法,它仍然可以被认为是原创的,编码指南中提供了非常规方法的示例。
第三个任务是要求学生对应用程序提出一个原创的改进建议,以解决用户保留率低的问题,这一任务涉及“评估和改进想法”这一维度。第一步仍然是判断回答是否是“适当”的,该项目的“适当”想法需要达到能够通过提供额外激励来改进应用程序,让人们长期使用此应用软件的目的;第二步则是判断是否为“原创的改进”,依据所提建议在主题或方法上的改进是否是非常规进行确定,若主题和方法都是常规的,则不符合要求,若属于主题常规,但方法原创,仍可以被认作是“原创的改进”。在每一个任务中,如果回答既适当又新颖,则为满分;回答仅仅符合适当,则部分给分;其他情况则为零分。5PISA2021创造性思维评分方式特点
5.1评分规定标准化
PISA2021根据创造性思维的表征特点,提出影响因素和表现形式关系模型以及能力模型,给出四领域能力测试的可行方法,基于测试重点和目标给出评价标准,共同构成操作性强的评价指标体系[10]。从三个维度切入,根据不同的领域和单元给出具体的评分方式(见图2),并利用计算机交互式测验来递送测试系统,捕捉行为数据,搜集响应数据信息,进行编码从而评分。这种方式保证了技术应用的可行性,为收集个体的反应、分析个体的表现提供了更便利的途径[11]。该评价指标体系实施性强,对评分者进行适当的培训,即可进行编码响应评分操作,极大地提升了大型测评的有效性。
5.2重视评分者信度
PISA2021创造性思维测评主要是开放式任务,就其本质而言会对评分的信度产生风险。好的评分信度和可比性是PISA测评的一个主要目标,验证编码方法是否切实可行非常重要,这就需要在投入大規模测评之前经过多个验证步骤和多次经验检查,来降低这一风险。评分方式是否可行显然取决于所产生的编码标准的质量,特别是要有严格的验证过程,以确保评分过程中不会出现文化偏见。鉴于这一点,PISA将要求参与国或地区的评分者就编码指南和标准中的内容以及语言提供反馈,并要求所有参与现场试验的评分者,而不仅仅是说英语的评分者,对大量翻译后的回答进行评分。这将揭示各国或地区在评分的宽松度方面是否存在系统性差异,并评估这些差异对最终得分的影响。
为了确定评分的准确性,PISA根据已有的实践经验,在现场试验和主调查期间,通过让多名评分者对每个人工编码的项目随机选择100个答案进行编码,来测量“评分者间的信度”,以检查编码的一致性。这项研究还将跨国进行,以检查各国或地区的系统评分偏差。“跨国评分者间的信度”是PISA2021创造性思维测评的一个重要设计标准,通过要求不同国家或地区的评分者对一组任务的10个回答(来自于在不同参与国或地区中真实的学生的项目回答)进行编码,来评估“跨国或地区评分者间的信度”。编码的可靠性不仅需要通过对一部分响应进行多重编码,还要通过仔细监控编码结果来建立。在形成评分标准之前,PISA2021创造性思维测评项目组将组织多场现场测评,对评分者之间的可靠性进行验证,以进一步确保评分的合理性。 5.3开放性任务,灵活的评分方式
绝大多数的测评(如数学、科学),其试题的标准答案通常由相关领域的学科专家制定,一般争议较少。为了让评分标准可以覆盖所有的可能情况,往往测试任务在设计上就已经尽量减少了开放性,但这样也在很大程度上削弱了测评任务的有效性[12]。PISA2021创造性思维测评拥有复杂的建构框架,采取开放性的任务和多样化的答案,其评分标准给出的也是尽可能多的示例,在评分方式上跟其他测评相比也更加灵活。这既是大规模创造性思维测评的重大突破,也是一次不容忽视的挑战。
6启示和建议
创新型人才的培养需要考虑人才的意识、思维与能力三方面,其中思维是意识向能力转化的关键[13]。提高国民创新素养、培养学生创造性思维是当前教育领域重要的任务之一。创造性思维作为21世纪人类必备技能之一,也是未来人类适应社会发展所必须的能力,其重要性显而易见。PISA2021创造性思维测评具有较大的实践意义,不仅可以让人们认识到培养学生创造性思维的重要性,还可以促进我国了解学生创造性思维的现状,从而更加清晰地认识到我国的优势和不足。同时,我们也可借鉴PISA2021创造性思维测试的理念、框架和方法,加以适当的调整,形成适合我国的教育测量方式。就目前而言,我国创新型人才储备和科技实力仍与西方国家存在差距,我国有必要反思当前的教育培养方式以及当前教育对创造性思维培养的限制,从而通过教育改革来提升学生的创造性思维水平[14]。
创造性思维作为一种复杂的能力,在测评中通过完成创造性任务得以展现,使得学生所具有的创造性思维能力可视化,这一测评方式对于高级思维的测试具有实践意义。PISA2021创造性思维开放性的任务、灵活的评分方式、严谨的编码过程,对于我国义务教育科学教育质量监测如何融入创造性思维具有启发意义。
参考文献:
[1]Therese N. Hopfenbeck, Kristine Grgen. The politics of PISA: