论文部分内容阅读
摘要:当前国际上,一种以场耦合、整体论和自然生成为旨趣的自然人文主义教育思潮渐成主流。在学习评价领域,OECD的PISA模式可谓个中翘楚。为此,该文首先从词源学视角解读了PISA中“Literacy”的社会文化功能,接着从认知与进化层面探讨了学习的发生与本质,对“学习素养”给出了一个描述性定义,提出了形成模型,最后,构建了评价指标体系,运用基于计算机的项目反应理论测试方法在郑州E中学开展了实证研究。结论如下:(1)学习素养有三个公因子,它们分别是显著影响学习素养形成的素养因子、反映考试成绩高低的成绩因子和能否积极利用身边各种学习资源的资源利用因子,其中素养因子对学习素养的影响最为显著;(2)就总体而言,学生表现最出色的是交流合作和记忆策略,最差的是信息资源利用情况;(3)成绩优异的学生和绝大部分学生主要采用记忆策略,而成绩中上者则常用精致策略;(4)在所有指标中,学科成绩的标准差最大;(5)精致策略等四个指标都会显著影响知识迁移水平。在当前背景下,学生的学习参与度普遍偏低,活学活用能力明显欠缺,两极分化现象严重,这些问题不能不引起业界关注。
关键词:PISA;Literacy;学习素养模型;评价指标体系;项目反应理论;实证研究
中图分类号:G434 文献标识码:A
PISA(Program for International Students Assessment)是美、英等国在知识经济背景下针对自身基础教育质量连续下滑而进行反思后的产物。自上海2009年作为我国第一个大陆地区参加OECD的PISA评估项目并两次同时在阅读、数学和科学三个领域获得第一之后,PISA得到了全社会有识之士的共同关注,在我国教育界也涌起了一股PISA研究热。如何借鉴PISA的精髓来扎实推进我国处于瓶颈状态的素质教育改革是摆在业界同仁面前一项崭新的课题。从宏观层面来看,要将PISA移植于素质教育评价必须考虑三个因素。首先,PISA的研究对象是即将结束义务教育的十五岁初中生,它属于一种基于常模参照测试的相对性评价。这种评测方式主要是通过各样本在常模中的相对位置来判断样本间的差异,看重的是对样本的区分能力,这对于从宏观层面依据总体分布特征来制定教育政策、预测各参与国的创新型人才储备和经济、社会发展后劲的相对优劣状况无疑是合适的,但是,对于通过一系列教学活动后,重在判定被试是否掌握了该目标领域中最重要的概念群、基本命题和基本技能,被试是否存在结构性缺陷以及怎样有针对性地进行补救的绝对性评价,即基于某一标准、理念的学业水平达成度评价则是不合适的。其次,我国于2001年颁布了基础教育各学科的课程标准。这些课程标准在课程性质、目标和知识点上都做出了详细规定,而且具有强制性,因此,在进行具体实践时有必要将二者结合起来。最后,虽说有必要借鉴PISA评价模式来进行全国性或跨地区的专业调查,但考虑到我国地域广阔,东、西部地区之间经济、文化差异较大,在现阶段,以学生个体、班级、学校甚至较小地区进行学习状况的自我监测和自我评价,更能有的放矢地改进自身教学过程中的不足以实现内涵式提升。概言之,我们不能简单地因袭PISA评价模式,必须充分考虑评价目标上的差异、国情制约和学校、学生个体的自身实际需要,才能在实践中逐步探索出一种真正意义上的本土化学习评价模式。六年来,笔者以我国现阶段的课程标准为基本依据,借鉴PISA评价的基本思想,增设部分能充分反映被试现实表现的真实性评价指标,突出个体和小规模团队的学习状态自诊断,并先后在郑州、厦门的多所初、高中进行了实证研究,现将研究结果进行整理论述。
自OECD设立PISA评估项目以来,我国为什么会有如此多的人群聚焦该项目呢?在笔者看来,除了人们的求新求异心理,这一现象更多地是承载了人们对徘徊在十字路口的素质教育评价能否得到根本性突破的一种期待。客观地说,PISA一改过去评价的鉴定性质,转而以促进发展为己任,具有其独特的社会文化功能。在宏观层面,PISA以即将完成义务教育的初中毕业生为观察对象,以各参与国学习质量的横向比较为手段,以学习有效内化和学习持续性为纽带,其初衷是教育质量的持续改善,创新型人才与合格公民的培养是其双重任务,最终目标则是实现经济、社会的可持续性发展和培养能有效沟通、合作的社会公民。在微观层面,PISA制定了严格而详尽的技术标准以确保流程的规范性,采用项目反应理论(Item Response Theory,IRT)以確保测试具有更好的效度;利用分层随机抽样和问卷调查法从学生、学校、家庭等方面全方位地收集原始信息。另外一个最为突出的原因就在于其别具一格的学习评价理念——“Literacy”。
从词源学的角度考察,“Literacy”由词根“Liter”和后缀“-acy”两个词素构成。其中,“Liter”来源于拉丁语“Littera”,构成了该词的核心义,意为“字母”“文字”;后缀“-acy”是一个表示“过程”“状态”的抽象名词后缀。因此,“Literacy”也就表示“能识字”“有文化”的状态。时至今日,“Literacy”的文化功能又有了新的拓展。如图1所示,PISA中的“Literacy”由六部分构成。它以个体生存为基点,沿着两条线索发展:一条是认知→情境问题解决→批判性反思;另一条是人际交流、合作→哈格公民,可分别称为认知主线和社会化主线。该外延整合了知识、能力和态度,打破了原有的“学科中心”桎梏,突出知识必须面向生活、回归社会。该理念的提出有利于突出基本活动经验中的真切感受和在此基础上通过归纳、概括、转换、推衍、抽象而习得的概念框架和诠释体系,使学习者将凝固的知识和经验升华到开放、动态的智慧层次。
按照上述理论,在这一复杂的自适应系统中,大脑大致相当于电脑硬件,而心理则可视作软件。事实上,两个神经元之间是通过突触(Synapse)并依赖于神经递质、神经调质来实现连接的。由于一个突触后神经元有上千条树突同时在接收信息,因此,每一神经元都是一个多路输入系统。面对不同的环境刺激,每一个突触后神经元都能依据信号强弱来灵活地选择并传递来自不同轴突上的神经冲动。不过,信号能被选择并传递的前提是该信号叠加后的强度必须达到某一阈值,因此,编码上只有“全”或者“无”。假如某一个体长期接受同一或类似环境的刺激,突触上将合成新的蛋白质,在某些神经回路中形成某种相对固定的行为模式,这种类似本能的模式化行为就是反射(Reflex)的前身。长时间以来,这些既准确又快速的反射机能进化成了自身不可或缺的生理性适应机能,而且可通过基因形式遗传给后代。其中,那些直接而具体的刺激物就是巴甫洛夫所说的“第一信号系统”,它为人类和动物所共有。然而,学习是一种特殊的反射,它具有目标性,并且是以语言、文字这种“信号的信号”即概念化符号为媒介来进行的,其最大特点间接性与抽象性,也就是说人类能将各感觉器官所收集到的环境信息依据时间接近律在大脑的不同功能中枢中加以分析与整合,形成了以特征为基础的框架性记忆和表象,再依据相似原则将同类刺激物加以总括,形成字、词并赋予一定的意义。然而,这种符号化的作用是双重的:一方面,它拓展了人类进行条件反射、认识的广度和深度;另一方面,由于个体的经历存在差异,其观察、统合、类比、概括化的程度常常不一致,而且人们可以在明确指称某一具体事物的“指示义”或带有自身情感寄托、影射的“引申义”上进行选择性使用,这样就容易造成“能指”(形式)和“所指”(内容)的脱节。解决这一问题的办法是运用“思维场”,即联系上下文或情境进行逻辑推断。如果把“学习”看作为个体因“思维场”所引起的某种行为或行为潜能相对稳定的改变,那么,学习的本质是改变,而改变的目的是适应。当然,这种改变的结果有两种:一种是同一层次上的水平增长,另一种是从较低层次到较高层次的纵向跃迁。从这个意义上来说,学习素养是一种高阶思维能力,是“互联网 ”时代的“五大核心素养”之一。
上述命题只是对学习素养的一种初步判断,内涵尚不清晰,笔者通过“描述性定义”法为其下一个初步定义,即:学习素养是学习者在长期的学习活动中,以生活中的灵活运用为目标,以深度探索和透彻理解为途径,将前后学习活动进行内容、方法和意义上的整合之后所形成的一种个性化认知习惯与品质。其主要特点是认知情境化、内化深刻性、学用一致性和个体独特性。
在系统论看来,事物的结构及其所处环境共同决定了系统的功能,一切事物皆可从环境、功能、结构、层次、运行机制等方面加以考察,因此,学习素养也是由许多功能模块和要素构成的有序存在,其子系统均具备一定的子功能。它们在相互激励、相互补充、相互制约的耦合关系中形成了一种动态的心理机制与行为模式,并呈现出具有一定结构的“分布式认知”格局,共同完成了学习素养所预设的全部功能。在如图2所示的模型中,动力部分是统括了学习动机、学习兴趣、学习态度在内的“学习参与度”。内容部分是“知识技能”,它通过课程以“概念”“命题”为基本形式,服务于特定培养目标,内容经过精选,各知识点之间具有严密逻辑性。方法部分是“学习策略”,它是指学习者对具体学习内容的加工方法选择、加工路线安排与所需资源的调配使用情况,因此,它包括了认知和调控两部分。其中,“认知策略”又包括“记忆策略”和“精致策略”。“学习调控策略”主要涉及学习对象选择、时间分配与调整、环境选择、自我激励、寻求他人支持等资源组织能力。考虑到互联网资源的日益丰富和当代协同创新活动的日趋频繁,健全人格在未来社会中的作用日益重要,筆者提出了“信息资源运用”能力和“人际交流合作”能力两个概念模块。调节部分是个体运用自身所学知识和技能去解决情境化问题的反馈情况,这种反馈有正向和负向之分。“知识迁移”是一种将所学知识技能予以灵活运用的能力,注重在记忆中针对原型(Prototype)的多侧面、多层次信息进行模型、概念、原理等的最大相似性(Similarity)概括及其类比推理能力。
通过评价,人们可发现当前或过去的活动能在多大程度上能满足自身需要,并对未来情况进行预测,将不利因素予以控制或排除,或者从众多方案中找出最有价值的一种,进行有效决策。如果说评价就是一种基于行为方式层面的质的描述或量的测量之上的价值判断活,那么,每一评价指标都必须清晰而典型地从某一侧面或环节反映出该系统的某一状态或过程。此外,指标体系除了层次清晰、同一层次的指标在外延上不能有交叉重叠现象之外,还要使每一层次、侧面或环节都有恰当数量的指标作为代表,也就是说,只有在符合完备性原则时,整个评价指标体系才能在既相互独立标识,又相互补充、相互制衡的动态关系中立体化、多层次地反映出被评价对象的总体特征与功能状态。当然,指标体系的最后一级指标还必须是外显化行为或状态,这样才有可能依据某种规则对终极指标进行赋值并做数据处理。总之,评价指标体系建立必须遵守典型性原则、完备性原则、终极指标外显化原则。在实际操作中有三个关键问题也需引起注意。
(一)指标的层次与数量问题
有学者认为:在对影响评价目标的因素进行筛选与归并时,除了要遵守层次性与典型性原则,同时也要遵守简约性原则,评价体系通常以不超过三层为宜,这样,评价指标体系更便于操作。图2的形成模型提出了学习素养的评价要素集,它属于一个多目标系统,而评价指标体系则是它们与评价要素集之间的一种映射,二者之间存在一对一、一对多,多对一和多对多四种可能映射关系。其中,一对一关系最为理想,但不具备普遍现实性;其次是一对多关系,它们不存在交叉与重叠;多对一和多对多情况下存在交叉与重叠,应该尽量避免。因此,笔者将学习素养分解为学习活动组织、学习结果情境化应用、学习过程的元评价及其优化三个递进层次。在学习活动组织方面,保留了PISA中的学习参与度和学习调控策略,将认知策略细化为记忆策略和精致策略,同时将模型中的“知识技能”明确为教材上的“学科知识”,以便今后在评价中用课程的考试分数来进行具体表征;在学习结果的情境化应用层次,依然保持了PISA中的知识迁移和(人际)交流合作;在元评价及其优化层次,重点描述学生的反思与创新能力、将信息化资源运用于学习过程和具体问题解决的能力。指标的层次体系如图3所示。
(二)各评价指标的权重问题
指标权重,又称权系数,它表征了该指标在整个指标体系中的相对重要性,它通常用一个[0,1]之间的小数来表示。目前,确定权重最有效的办法仍是依赖于专业判断。因此,笔者采用了较为常见的Delphi法,即专家调查法。在确定权重的过程中,首先由研究人员提供专家调查表,在调查表上简要描述指标内容和可以备选的相对重要性等级;然后交由一组互不见面的专家凭借自己的专业经验进行判断,勾选一个他认为最切合的数值;经回收与统计后再将平均数、众数等趋同性数值、持有异议的少数专家态度及其理由反馈给各个专家,再次征询专家们的意见;经过数轮咨询后,专家结果会趋向于稳定与收敛,最终获得了具有统计意义的专家小组意见。专家代表的遴选与无预设导向性评判意见是Delphi法成功的关键。在两轮的调查研究中,笔者选择了来自9所高校、分布在8个不同省份的31名长期研究学习理论或学习评价的专家,他们长期从事一线教学、科研工作,均具有博士学位或副教授以上职称。专家的专业权威性、地域代表性和人数规模都符合Delphi法的要求,鉴于笔者已另外撰文介绍了这一研究的详细过程,故在此从略。各指标内容及经归一化等计算后所得到的各指标权重如表1所示。
(三)各指标的量表设计
前述的指标体系只是解决了具体评价什么的问题,接下来就要确定评价标准,即如何围绕评价指标来精准地选择并度量各指标,它实质上是一组行为样本的合理选择与规范化赋值。通常,它要解决三个基本问题:(1)究竟该从评价对象上选择哪些最为典型而又便于测量的行为或状态作为各指标的行为样本;(2)行为样本的可能取值范围如何以及根据什么标准在上述取值范围内划分等级;(3)各个指标行为样本的不同等级、程度该如何分派一组合适的数字或代号。对于第一个问题,行为样本的选择必须符合完备性原则,即这组行为样本的集合最好能包含该指标全部内容,最起码也能包含该指标的全部重要特征。在实际操作中,根据评价对象性质的不同,可选择使用某些时空条件下的行为频率去定量描述,无法进行定量描述时一般选择能典型代表内心感受的某些强度指标去作定性描述。至于第二、第三个问题,必须结合行为样本的特征、性质并依据量化水平就高不就低的原则分别从类别量表、等级量表、等距量表、比率量表中加以选择。学习素养评价各指标的量化和赋值情况如表2所示。
在表2中,F1(学科知识)并不是严格意义上的等距量表,而是一种介于等级量表和等距量表之间的量化形式。和PISA一样,它的测量是基于项目反应理论(IRT)进行的,因此,必须借助计算机和某些专门软件来完成。与经典测试理论(CTT)只考虑随机误差、假定每次测量都是互不影响的做法不同,IRT一方面通过数学模型把项目得分与项目自身性质、被试的潜在特质(Latent Trait)联系起来,从而使测试项目的难度特性与被试的能力特质处于同一张量表之上;另一方面,通过使用信息函数而非方差来估测每个项目或试卷的效度,也不存在样本依赖性问题。此外,项目参数的估计可独立于被试进行,便于编制试题库。鉴于IRT的以上特点,有国内学者明确指出:除了适合于编排各种较大规模能力水平的精细量化考试外,IRT还可有效应用于学习者以学习品质的自我检查为目的的自适应测试(CAT)中,或者与认知科学结合起来,以便开发具有认知特點、认知结构分析功能的学习品质诊断系统。
在具体操作上,考虑到方法的成熟性,笔者选择单维性假设下双值计分方式的逻辑斯蒂三参数模型(见式(1),式中a、b、c分别为区分度、难度和猜测度,p为正答率),测试项目库的建设经历了项目试测、模型四假设验证、筛选项目、项目的等值化处理、依据双向细目表和信息函数大小编制试卷等主要过程。其余8个指标都是采用五级计分制的总加评分式李克特(Likert)量表,每一个指标同时从四个不同侧面进行提问,以便相互印证,及时淘汰不合理答案;每一个提问都力求措辞清晰、明确,而且都是采用很赞成/同意、赞成/同意、不一定/无所谓、不赞成/同意、很不赞成/同意的无导向陈述模式。对此,有学者指出:当量表中的测试项目不少于50个时,同样能具有令人满意的信度。
根据以上设计的评价指标体系,笔者围绕数学素养、阅读素养先后在郑州E中学、厦门L中学开展了多次实证研究,现将于郑州E中学进行的研究过程进行简要论述。
(一)研究对象的选择
与PISA一样,此次研究对象是初三学生。而PISA之所以选择他们,一方面是考虑到他们中有一少部分人从此就要离开学校,独立地走上了社会舞台,即将成为所在参与国中的一名普通公民;而另一方面,现在的知识更新周期不足三个月,以学习兴趣、学习习惯、学习结果灵活运用为基本内容的终身学习能力又是个体是否具备良好学习素养的表征。因此,通过调查他们在阅读、数学和科学领域的学习素养水平,就能大体上判断该参与国的创新人才储备情况。考虑到数学领域不仅是三个基础性领域之一,更有抽象性、严谨性与广泛应用性的显著特征,而且已有比较成熟的认知目标分类标准,故笔者在研究中选择了初三的数学作为测试领域。
(二)基本研究过程
本实证研究过程主要从两个方面来收集原始数据:一是围绕“学科知识”即初三(上)数学,依据IRT测试的要点与程序对上述研究对象进行试测,然后筛选出难度、区分度等指标都合格的试题,依据双向细目表要求再次编制一套试卷,择机返回现场正式施测;二是在测试结束时,马上组织对其余8个指标的问卷调查。 1.项目筛选
在基于IRT的测试中,为了确保效度,必须进行单维性验证、特征曲线形状检查、模型拟合度验证以及最后的项目难度、项目区分度、项目猜测度的具体数值计算等过程。
(1)单维性验证:其目的既要保证试卷中所有项目之间具有良好的相关性,同时每次测试又只测量一个主要因素。判断办法是:查看因子分析中因子载荷矩阵的第一个公因子的方差贡献率是否达到了20%。然而,进行因子分析也需符合两个条件:一是KMO值≥0.7;二是Bartlett球形检验的显著水平≤0.01。其中,第一个条件保证了皮尔逊相关系数的平方和远大于其偏相关系数的平方和,即项目之间具有较大的关联性;第二个条件则保证了因子载荷矩阵近似于单位矩阵,各项目之间又相对独立。在此次测试中,通过SPSS 20.0计算发现:A、B卷的KMO值分别为0.81和0.85,Sig.值都是0.00,并且第一个公因子的方差贡献率分别为21.69%和26.89%,因此完全符合单维性假设。
(2)特征曲线形状检查:每一个项目的难度应适中,不能过难或过易,这样项目才具有一定的辨识力。这一要求反映在三参数逻辑斯蒂模型中就是项目难度一正确率的关系必须近似于一条“S”形曲线,对于那些近似于直线的题项则直接予以剔除。在此次检查中,A、B卷各删除了两道题。
(3)模型拟合度验证:在这一过程中,主要考察测试数据分布是否符合三参数逻辑斯蒂模型的理论分布。它属于离散型非参数检验,主要考虑样本实际频数与总体理论频数的差异大小,故一般采用卡方检验。考虑到即使样本很大时X2检验也可能拒绝零假设,故此次模拟度检查采用服从n-k的X2分布的杨统计量(Yen Statistic)检验,其最大特点是当样本数在500-1000之间时拟合效果最佳。通过专业软件ANOTE 1.6计算后,如果其X2检验的杨统计量超出了显著水平,则将该项目予以剔除,如A卷中的第10题和B卷中的第6题。
(4)项目的参数计算:由于项目参数和能力参数均为未知,故一般采用联合极大似然估计法,这实际是一个先给定初值,然后双向交替迭代直至收敛的过程。在ANOTE 1.6软件上,通过选定项目反应理论程序模块上的“二级评分三参数项目估计”即可得到各项目的难度、区分度和猜测度参数。此外,对于项目的参数还要进行阈值检查,即区分度、难度、猜测度分别在[0.3,2.0]、[-3.0,3.0]、[0,0.25]之间。超过阈值的项目也要予以剔除。如果要实现随机组卷功能,还要在A、B卷中设置锚点,这样才能进行等值化处理。
2.组卷
一份高质量的试卷不仅要涉及所学课程的全部知识与技能,还应重点突出、比例恰当。为此,笔者首先运用ISM法(Interpretive Structural Modeling Method)对教材的知识点进行结构关联性分析,这样便于从宏观上依据知识点之间的相关性大小去把握教材的内容比例与难度;接着紧密结合义务教育数学课程标准中的内容——目标要求,重点考察学生对相关知识点的理解程度和进行应用时所表现出来的思维深度,具体划分为识记、理解、应用、分析与探究五个精熟度水准,其中识记、理解题的分值约总分数的50%,而应用分析类、探究类所占分值分别是总分数的35%和15%。整个试卷由25道题组成,具体说明试卷中各章节知识点、考核目标、内容比例、难易性质的双向细目表如表3所示。
3.施测
整个测试分为试测和正式施测两个阶段。在第一轮的项目试测中,被测人数和测试项目理论上都是越多越好,故从E中学初三年段的全部10班中随机选择了6个班,合计332人,其中三个班用A卷测试,另外三个班用B卷测试。在第二轮的正式施测中,笔者从剩余的4个班中随机抽取了1个学习状况处于中间水平的班级,该班有学生57人,除去因病事假学生,实际参测人数为54人,去掉无效问卷3份,实际有效样本为51个。
(三)主要指标分析
1.学习素养的因子分析
以表1中的F1-F9分别作为纵轴和横轴,以彼此间的相关系数构造因子载荷矩阵,经SPSS 20.0计算后,发现其KMO=0.816≥0.7,且Sig.=0.000≤0.01,故适合进行因子分析。主成分分析后的各变量方差解释结果如表4所示。由表4可看出:前三个公因子合计解释了方差贡献率的74.9%,故提取这三个公因子就可以较好地解释原来9个变量的变化情况。
经坐标旋转后的因子载荷矩阵如表5所示,表中数值是该变量与所在公因子之间的相关系数。为了清晰起见,将相关系数在0.5以上的指标在表中以方框标注。由表5可见:公因子1以精致策略为代表,还受到记忆策略、知识迁移、交流合作、学习调控策略、反思与创新、学习参与度的影响,但它们的相关系数渐次减小,而且它几乎不受学科成绩(F1)和信息资源利用(F9)两个指标的影响。由于它对学习素养的方差贡献率达到了近一半,能较好地代表了学习素养水平,故可以将其称为素养因子。同理,与第一公因子相互独立的第二公因子和第三公因子则分别反映了学生的考试得分情况和信息资源利用情况,因此,可分别命名为成绩因子和资源利用因子。
2.认知策略的使用分析
如前所述,認知策略包括传统的记忆策略和以知识点的深度理解与整合为基础的精致策略。为了统一量纲,笔者将学生的测试成绩按照[0,20],[21,40],…,[81,100]五个间隔转换为五级计分制。不同成绩水平的学生使用记忆策略与精致策略的情况如图4所示。 从图4可以看出:不同成绩水平的学生使用记忆策略和精致策略的情况是不同的。在当前状况下,成绩优秀的学生更多使用记忆策略,而中等成绩的学生反而更注意使用精致策略,由于他们的知识得到了较好的理解和整合,反而使得他们在日后的工作、生活中具有较高的情商和创新意识。这也与在当前的教育背景下成绩最优秀的学生往往很难成为各行业的领军人物这一社会现象相符合。
3.知识迁移水平
知识迁移反映了学生学习后是否获得了触类旁通的情境问题解决能力,这与学习后所形成的语义知识网络的规模大小和层次有关。考虑到指标数据主要是非连续型的等级数据,故采用的是Spearman相关检验。在样本数N=51时,各评价指标对知识迁移水平的影响程度如表6所示。在该表中,精致策略F4、交流合作F7、反思与创新F8和学习参与度F2都会明显影响知识迁移水平,而学科成绩F1和信息资源利用F9则对知识迁移水平几乎没有影响。
如按照对因变量贡献最大且符合判断条件:F≤0.05时进入,F≥0.1时予以删除的规则逐一引进各自变量,还可得到知识迁移水平预测的回归方程:
4.各指标均值与标准差比较
指标的集中量和差异量往往可以通过其均值和标准差来加以刻画。经计算,9个指标的平均值为3.29。各指标的均值和标准差如图5所示,均值最大的为交流合作指标F7,其次是记忆策略F3,最小的是信息资源利用F9,其数值分别为3.59、3.44和2.76。这一现象与学习是一种社会活动、具有很强的互动性这一特点有关。不过,被试的学习目的重在获取比较理想的分数,认知方法主要是机械记忆,这不利于形成自己的立体化语义知识网络,从而间接影响了日后创新能力和知识迁移能力的提高。此外,信息资源利用F9的均值最小,这也在一定程度上说明在当今学习背景下,学生普遍还沒有养成充分利用万维网上的各种数字化学习资源作为学习手段有效补充的习惯。在差异量方面,学科知识(成绩)F1的标准差为0.934,是9个指标中最大的一个,而标准差最小的是反思与创新F8,这说明初中生学习中的两极分化现象比较严重,而反思与创新能力都在较低水平徘徊,不具有明显差异。
5.反思与创新等四个指标的横向比较
学生通过学习活动汲取知识,但其根本目的还是要解决自身所面临的问题。能否在应用中收获创新与效率是判断教育成败的关键指标之一。从研究结果看,学科成绩F1、学习参与度F2、知识迁移F6和反思与创新F8这四个指标的均值依次是3.35、3.24、3.39和3.28,只有学科知识F1在平均值3.29之上,而学习参与度F2和反思与创新F8均没有达到平均水平。上述四个指标在不同成绩水准学生的频数分布如图6所示。从该图可以看出,四条曲线都呈准正态分布,但它们的峰度和偏度明显不同,众数所在区间也不同。反思与创新F8和学科成绩F1较为同步,知识迁移水平最高的那部分学生成绩表现为中等和中等偏上,学习参与度F2则呈现明显的负偏态。
(四)研究的效度
本研究通过双向细目表来保证了内容效度,但在此次测试与调查中,学生能力是否得到了稳定发挥尚不得而知。为此,本研究将此次测试成绩分别与该班期中考试和上一次月考的平均成绩进行了t检验,按式(3)进行计算并查表得知:在显著性水平α=0.05、自由度df=51条件下均接纳了测试样本总体的平均分μ与假设总体平均分μ0之间没有区别的零假设。
概括地说,价值是活动对象的客体属性、功能与主体需要的一种关系表征。学习评价是一种对学习活动能在多大程度上满足主体需要的价值判断活动。因此,评价研究中特别注重三个基本问题,即为什么而评、评什么、怎么评、从本质上来说,学习评价归根结底是一个认识问题,更确切地说,是一个由点及面、由浅入深、由现象到本质的认识过程。
首先是取样规模问题。模型验证的样本来源越广,项目参数的适应范围也就越广。如果考虑到数据处理的工作量大小,也可严格按比例进行随机抽样。在类别差异较为显著时还可采用分层随机抽样的方式。受时间、精力所限,本研究的样本都来自于同一所学校,同一年级的学生规模不超过1000人,因此,研究结论属于个案性质。当然,从郑州E中学所处的地理位置和生源结构来看,其结论也有较强的普适性。
其次是拟合模型的选择问题。对于IRT来说,不同性质的测试会有不同的最佳适应模型,因此,在模型拟合阶段可以尝试使用不同的数学模型。由于数学和科学领域往往具有客观性和精确计量的特点,可选择二值计分模型。但是,对于重在捕捉信息和意义的阅读领域来说,答案往往是基于情感和意义的选择,具有一定的主观性,此时选择多级计分模型更为合适。因此,笔者在对厦门L中学高一学生阅读策略的评价研究中改用了五级计分的等级反应模型(Graded Response Model)。
再次是信息函数的使用问题。信息函数I(θ)反映了某一项目对某被试能力的分辨程度。因此,只有在测试中找出那些难度与被试能力最为接近的项目(此时项目的信息函数值最大),才能保证测量误差最小。具体来说,在组卷时,如果一套试卷的信息量达到25,其标准误差将小于0.2。在进行自适应测试时,如何围绕最大信息量设计一种快速而有效的算法也是一个值得研究的问题。对于CAT,笔者尝试将所有项目按照难度大小分成数层,然后依据信息量不断增大的原则进行试测,直到前后两次信息量之差小于某一可接受的误差之后才停止。为充分利用第一手项目测试数据和减少调试工作量,整个选题流程在经过蒙特卡罗(Monte Carlo)模拟实验予以证实并且取得满意效果后才正式形成算法,编写代码。
最后是该评价模式的应用前景问题。历经六年多的探索验证,该评价模式已相对成熟。预计在未来一段时间内,研究将从目前以初中生为研究主体,逐步扩展到小学五、六年级和高中一、二年级学生,内容涉及阅读、数学和科学三个领域,建设一个中等规模的多媒体试题库,在学习素养评估专题网站中采用实时问卷调查和基于IRT测试相结合的办法,以本研究中的指标权重为基础,转换成一个百分制数值,将结果解释和未来完善建议一并即时反馈给该网站用户。这些用户可能是广大学习爱好者或学校教师和教育研究人员,甚至可以是家长。
关键词:PISA;Literacy;学习素养模型;评价指标体系;项目反应理论;实证研究
中图分类号:G434 文献标识码:A
PISA(Program for International Students Assessment)是美、英等国在知识经济背景下针对自身基础教育质量连续下滑而进行反思后的产物。自上海2009年作为我国第一个大陆地区参加OECD的PISA评估项目并两次同时在阅读、数学和科学三个领域获得第一之后,PISA得到了全社会有识之士的共同关注,在我国教育界也涌起了一股PISA研究热。如何借鉴PISA的精髓来扎实推进我国处于瓶颈状态的素质教育改革是摆在业界同仁面前一项崭新的课题。从宏观层面来看,要将PISA移植于素质教育评价必须考虑三个因素。首先,PISA的研究对象是即将结束义务教育的十五岁初中生,它属于一种基于常模参照测试的相对性评价。这种评测方式主要是通过各样本在常模中的相对位置来判断样本间的差异,看重的是对样本的区分能力,这对于从宏观层面依据总体分布特征来制定教育政策、预测各参与国的创新型人才储备和经济、社会发展后劲的相对优劣状况无疑是合适的,但是,对于通过一系列教学活动后,重在判定被试是否掌握了该目标领域中最重要的概念群、基本命题和基本技能,被试是否存在结构性缺陷以及怎样有针对性地进行补救的绝对性评价,即基于某一标准、理念的学业水平达成度评价则是不合适的。其次,我国于2001年颁布了基础教育各学科的课程标准。这些课程标准在课程性质、目标和知识点上都做出了详细规定,而且具有强制性,因此,在进行具体实践时有必要将二者结合起来。最后,虽说有必要借鉴PISA评价模式来进行全国性或跨地区的专业调查,但考虑到我国地域广阔,东、西部地区之间经济、文化差异较大,在现阶段,以学生个体、班级、学校甚至较小地区进行学习状况的自我监测和自我评价,更能有的放矢地改进自身教学过程中的不足以实现内涵式提升。概言之,我们不能简单地因袭PISA评价模式,必须充分考虑评价目标上的差异、国情制约和学校、学生个体的自身实际需要,才能在实践中逐步探索出一种真正意义上的本土化学习评价模式。六年来,笔者以我国现阶段的课程标准为基本依据,借鉴PISA评价的基本思想,增设部分能充分反映被试现实表现的真实性评价指标,突出个体和小规模团队的学习状态自诊断,并先后在郑州、厦门的多所初、高中进行了实证研究,现将研究结果进行整理论述。
一、“Literacy”的功能分析
自OECD设立PISA评估项目以来,我国为什么会有如此多的人群聚焦该项目呢?在笔者看来,除了人们的求新求异心理,这一现象更多地是承载了人们对徘徊在十字路口的素质教育评价能否得到根本性突破的一种期待。客观地说,PISA一改过去评价的鉴定性质,转而以促进发展为己任,具有其独特的社会文化功能。在宏观层面,PISA以即将完成义务教育的初中毕业生为观察对象,以各参与国学习质量的横向比较为手段,以学习有效内化和学习持续性为纽带,其初衷是教育质量的持续改善,创新型人才与合格公民的培养是其双重任务,最终目标则是实现经济、社会的可持续性发展和培养能有效沟通、合作的社会公民。在微观层面,PISA制定了严格而详尽的技术标准以确保流程的规范性,采用项目反应理论(Item Response Theory,IRT)以確保测试具有更好的效度;利用分层随机抽样和问卷调查法从学生、学校、家庭等方面全方位地收集原始信息。另外一个最为突出的原因就在于其别具一格的学习评价理念——“Literacy”。
从词源学的角度考察,“Literacy”由词根“Liter”和后缀“-acy”两个词素构成。其中,“Liter”来源于拉丁语“Littera”,构成了该词的核心义,意为“字母”“文字”;后缀“-acy”是一个表示“过程”“状态”的抽象名词后缀。因此,“Literacy”也就表示“能识字”“有文化”的状态。时至今日,“Literacy”的文化功能又有了新的拓展。如图1所示,PISA中的“Literacy”由六部分构成。它以个体生存为基点,沿着两条线索发展:一条是认知→情境问题解决→批判性反思;另一条是人际交流、合作→哈格公民,可分别称为认知主线和社会化主线。该外延整合了知识、能力和态度,打破了原有的“学科中心”桎梏,突出知识必须面向生活、回归社会。该理念的提出有利于突出基本活动经验中的真切感受和在此基础上通过归纳、概括、转换、推衍、抽象而习得的概念框架和诠释体系,使学习者将凝固的知识和经验升华到开放、动态的智慧层次。
二、学习素养形成探微
学习与学习素养形成的动因是什么呢?进化心理学认为:(1)在漫长的进化过程中,人类自身逐步形成了一套独特的环境适应系统;(2)大脑与心理是上述系统的两个不同层次,前者主要受物理、化学定律支配,而后者则按照一定的逻辑序列负责进行信息加工,彼此以互补方式来协同工作;(3)人类并不能意识到自己的全部活动,大多数适应问题仍然依靠潜意识甚至本能来解决。按照上述理论,在这一复杂的自适应系统中,大脑大致相当于电脑硬件,而心理则可视作软件。事实上,两个神经元之间是通过突触(Synapse)并依赖于神经递质、神经调质来实现连接的。由于一个突触后神经元有上千条树突同时在接收信息,因此,每一神经元都是一个多路输入系统。面对不同的环境刺激,每一个突触后神经元都能依据信号强弱来灵活地选择并传递来自不同轴突上的神经冲动。不过,信号能被选择并传递的前提是该信号叠加后的强度必须达到某一阈值,因此,编码上只有“全”或者“无”。假如某一个体长期接受同一或类似环境的刺激,突触上将合成新的蛋白质,在某些神经回路中形成某种相对固定的行为模式,这种类似本能的模式化行为就是反射(Reflex)的前身。长时间以来,这些既准确又快速的反射机能进化成了自身不可或缺的生理性适应机能,而且可通过基因形式遗传给后代。其中,那些直接而具体的刺激物就是巴甫洛夫所说的“第一信号系统”,它为人类和动物所共有。然而,学习是一种特殊的反射,它具有目标性,并且是以语言、文字这种“信号的信号”即概念化符号为媒介来进行的,其最大特点间接性与抽象性,也就是说人类能将各感觉器官所收集到的环境信息依据时间接近律在大脑的不同功能中枢中加以分析与整合,形成了以特征为基础的框架性记忆和表象,再依据相似原则将同类刺激物加以总括,形成字、词并赋予一定的意义。然而,这种符号化的作用是双重的:一方面,它拓展了人类进行条件反射、认识的广度和深度;另一方面,由于个体的经历存在差异,其观察、统合、类比、概括化的程度常常不一致,而且人们可以在明确指称某一具体事物的“指示义”或带有自身情感寄托、影射的“引申义”上进行选择性使用,这样就容易造成“能指”(形式)和“所指”(内容)的脱节。解决这一问题的办法是运用“思维场”,即联系上下文或情境进行逻辑推断。如果把“学习”看作为个体因“思维场”所引起的某种行为或行为潜能相对稳定的改变,那么,学习的本质是改变,而改变的目的是适应。当然,这种改变的结果有两种:一种是同一层次上的水平增长,另一种是从较低层次到较高层次的纵向跃迁。从这个意义上来说,学习素养是一种高阶思维能力,是“互联网 ”时代的“五大核心素养”之一。
上述命题只是对学习素养的一种初步判断,内涵尚不清晰,笔者通过“描述性定义”法为其下一个初步定义,即:学习素养是学习者在长期的学习活动中,以生活中的灵活运用为目标,以深度探索和透彻理解为途径,将前后学习活动进行内容、方法和意义上的整合之后所形成的一种个性化认知习惯与品质。其主要特点是认知情境化、内化深刻性、学用一致性和个体独特性。
在系统论看来,事物的结构及其所处环境共同决定了系统的功能,一切事物皆可从环境、功能、结构、层次、运行机制等方面加以考察,因此,学习素养也是由许多功能模块和要素构成的有序存在,其子系统均具备一定的子功能。它们在相互激励、相互补充、相互制约的耦合关系中形成了一种动态的心理机制与行为模式,并呈现出具有一定结构的“分布式认知”格局,共同完成了学习素养所预设的全部功能。在如图2所示的模型中,动力部分是统括了学习动机、学习兴趣、学习态度在内的“学习参与度”。内容部分是“知识技能”,它通过课程以“概念”“命题”为基本形式,服务于特定培养目标,内容经过精选,各知识点之间具有严密逻辑性。方法部分是“学习策略”,它是指学习者对具体学习内容的加工方法选择、加工路线安排与所需资源的调配使用情况,因此,它包括了认知和调控两部分。其中,“认知策略”又包括“记忆策略”和“精致策略”。“学习调控策略”主要涉及学习对象选择、时间分配与调整、环境选择、自我激励、寻求他人支持等资源组织能力。考虑到互联网资源的日益丰富和当代协同创新活动的日趋频繁,健全人格在未来社会中的作用日益重要,筆者提出了“信息资源运用”能力和“人际交流合作”能力两个概念模块。调节部分是个体运用自身所学知识和技能去解决情境化问题的反馈情况,这种反馈有正向和负向之分。“知识迁移”是一种将所学知识技能予以灵活运用的能力,注重在记忆中针对原型(Prototype)的多侧面、多层次信息进行模型、概念、原理等的最大相似性(Similarity)概括及其类比推理能力。
三、评价指标体系的构建
通过评价,人们可发现当前或过去的活动能在多大程度上能满足自身需要,并对未来情况进行预测,将不利因素予以控制或排除,或者从众多方案中找出最有价值的一种,进行有效决策。如果说评价就是一种基于行为方式层面的质的描述或量的测量之上的价值判断活,那么,每一评价指标都必须清晰而典型地从某一侧面或环节反映出该系统的某一状态或过程。此外,指标体系除了层次清晰、同一层次的指标在外延上不能有交叉重叠现象之外,还要使每一层次、侧面或环节都有恰当数量的指标作为代表,也就是说,只有在符合完备性原则时,整个评价指标体系才能在既相互独立标识,又相互补充、相互制衡的动态关系中立体化、多层次地反映出被评价对象的总体特征与功能状态。当然,指标体系的最后一级指标还必须是外显化行为或状态,这样才有可能依据某种规则对终极指标进行赋值并做数据处理。总之,评价指标体系建立必须遵守典型性原则、完备性原则、终极指标外显化原则。在实际操作中有三个关键问题也需引起注意。
(一)指标的层次与数量问题
有学者认为:在对影响评价目标的因素进行筛选与归并时,除了要遵守层次性与典型性原则,同时也要遵守简约性原则,评价体系通常以不超过三层为宜,这样,评价指标体系更便于操作。图2的形成模型提出了学习素养的评价要素集,它属于一个多目标系统,而评价指标体系则是它们与评价要素集之间的一种映射,二者之间存在一对一、一对多,多对一和多对多四种可能映射关系。其中,一对一关系最为理想,但不具备普遍现实性;其次是一对多关系,它们不存在交叉与重叠;多对一和多对多情况下存在交叉与重叠,应该尽量避免。因此,笔者将学习素养分解为学习活动组织、学习结果情境化应用、学习过程的元评价及其优化三个递进层次。在学习活动组织方面,保留了PISA中的学习参与度和学习调控策略,将认知策略细化为记忆策略和精致策略,同时将模型中的“知识技能”明确为教材上的“学科知识”,以便今后在评价中用课程的考试分数来进行具体表征;在学习结果的情境化应用层次,依然保持了PISA中的知识迁移和(人际)交流合作;在元评价及其优化层次,重点描述学生的反思与创新能力、将信息化资源运用于学习过程和具体问题解决的能力。指标的层次体系如图3所示。
(二)各评价指标的权重问题
指标权重,又称权系数,它表征了该指标在整个指标体系中的相对重要性,它通常用一个[0,1]之间的小数来表示。目前,确定权重最有效的办法仍是依赖于专业判断。因此,笔者采用了较为常见的Delphi法,即专家调查法。在确定权重的过程中,首先由研究人员提供专家调查表,在调查表上简要描述指标内容和可以备选的相对重要性等级;然后交由一组互不见面的专家凭借自己的专业经验进行判断,勾选一个他认为最切合的数值;经回收与统计后再将平均数、众数等趋同性数值、持有异议的少数专家态度及其理由反馈给各个专家,再次征询专家们的意见;经过数轮咨询后,专家结果会趋向于稳定与收敛,最终获得了具有统计意义的专家小组意见。专家代表的遴选与无预设导向性评判意见是Delphi法成功的关键。在两轮的调查研究中,笔者选择了来自9所高校、分布在8个不同省份的31名长期研究学习理论或学习评价的专家,他们长期从事一线教学、科研工作,均具有博士学位或副教授以上职称。专家的专业权威性、地域代表性和人数规模都符合Delphi法的要求,鉴于笔者已另外撰文介绍了这一研究的详细过程,故在此从略。各指标内容及经归一化等计算后所得到的各指标权重如表1所示。
(三)各指标的量表设计
前述的指标体系只是解决了具体评价什么的问题,接下来就要确定评价标准,即如何围绕评价指标来精准地选择并度量各指标,它实质上是一组行为样本的合理选择与规范化赋值。通常,它要解决三个基本问题:(1)究竟该从评价对象上选择哪些最为典型而又便于测量的行为或状态作为各指标的行为样本;(2)行为样本的可能取值范围如何以及根据什么标准在上述取值范围内划分等级;(3)各个指标行为样本的不同等级、程度该如何分派一组合适的数字或代号。对于第一个问题,行为样本的选择必须符合完备性原则,即这组行为样本的集合最好能包含该指标全部内容,最起码也能包含该指标的全部重要特征。在实际操作中,根据评价对象性质的不同,可选择使用某些时空条件下的行为频率去定量描述,无法进行定量描述时一般选择能典型代表内心感受的某些强度指标去作定性描述。至于第二、第三个问题,必须结合行为样本的特征、性质并依据量化水平就高不就低的原则分别从类别量表、等级量表、等距量表、比率量表中加以选择。学习素养评价各指标的量化和赋值情况如表2所示。
在表2中,F1(学科知识)并不是严格意义上的等距量表,而是一种介于等级量表和等距量表之间的量化形式。和PISA一样,它的测量是基于项目反应理论(IRT)进行的,因此,必须借助计算机和某些专门软件来完成。与经典测试理论(CTT)只考虑随机误差、假定每次测量都是互不影响的做法不同,IRT一方面通过数学模型把项目得分与项目自身性质、被试的潜在特质(Latent Trait)联系起来,从而使测试项目的难度特性与被试的能力特质处于同一张量表之上;另一方面,通过使用信息函数而非方差来估测每个项目或试卷的效度,也不存在样本依赖性问题。此外,项目参数的估计可独立于被试进行,便于编制试题库。鉴于IRT的以上特点,有国内学者明确指出:除了适合于编排各种较大规模能力水平的精细量化考试外,IRT还可有效应用于学习者以学习品质的自我检查为目的的自适应测试(CAT)中,或者与认知科学结合起来,以便开发具有认知特點、认知结构分析功能的学习品质诊断系统。
在具体操作上,考虑到方法的成熟性,笔者选择单维性假设下双值计分方式的逻辑斯蒂三参数模型(见式(1),式中a、b、c分别为区分度、难度和猜测度,p为正答率),测试项目库的建设经历了项目试测、模型四假设验证、筛选项目、项目的等值化处理、依据双向细目表和信息函数大小编制试卷等主要过程。其余8个指标都是采用五级计分制的总加评分式李克特(Likert)量表,每一个指标同时从四个不同侧面进行提问,以便相互印证,及时淘汰不合理答案;每一个提问都力求措辞清晰、明确,而且都是采用很赞成/同意、赞成/同意、不一定/无所谓、不赞成/同意、很不赞成/同意的无导向陈述模式。对此,有学者指出:当量表中的测试项目不少于50个时,同样能具有令人满意的信度。
四、实证研究
根据以上设计的评价指标体系,笔者围绕数学素养、阅读素养先后在郑州E中学、厦门L中学开展了多次实证研究,现将于郑州E中学进行的研究过程进行简要论述。
(一)研究对象的选择
与PISA一样,此次研究对象是初三学生。而PISA之所以选择他们,一方面是考虑到他们中有一少部分人从此就要离开学校,独立地走上了社会舞台,即将成为所在参与国中的一名普通公民;而另一方面,现在的知识更新周期不足三个月,以学习兴趣、学习习惯、学习结果灵活运用为基本内容的终身学习能力又是个体是否具备良好学习素养的表征。因此,通过调查他们在阅读、数学和科学领域的学习素养水平,就能大体上判断该参与国的创新人才储备情况。考虑到数学领域不仅是三个基础性领域之一,更有抽象性、严谨性与广泛应用性的显著特征,而且已有比较成熟的认知目标分类标准,故笔者在研究中选择了初三的数学作为测试领域。
(二)基本研究过程
本实证研究过程主要从两个方面来收集原始数据:一是围绕“学科知识”即初三(上)数学,依据IRT测试的要点与程序对上述研究对象进行试测,然后筛选出难度、区分度等指标都合格的试题,依据双向细目表要求再次编制一套试卷,择机返回现场正式施测;二是在测试结束时,马上组织对其余8个指标的问卷调查。 1.项目筛选
在基于IRT的测试中,为了确保效度,必须进行单维性验证、特征曲线形状检查、模型拟合度验证以及最后的项目难度、项目区分度、项目猜测度的具体数值计算等过程。
(1)单维性验证:其目的既要保证试卷中所有项目之间具有良好的相关性,同时每次测试又只测量一个主要因素。判断办法是:查看因子分析中因子载荷矩阵的第一个公因子的方差贡献率是否达到了20%。然而,进行因子分析也需符合两个条件:一是KMO值≥0.7;二是Bartlett球形检验的显著水平≤0.01。其中,第一个条件保证了皮尔逊相关系数的平方和远大于其偏相关系数的平方和,即项目之间具有较大的关联性;第二个条件则保证了因子载荷矩阵近似于单位矩阵,各项目之间又相对独立。在此次测试中,通过SPSS 20.0计算发现:A、B卷的KMO值分别为0.81和0.85,Sig.值都是0.00,并且第一个公因子的方差贡献率分别为21.69%和26.89%,因此完全符合单维性假设。
(2)特征曲线形状检查:每一个项目的难度应适中,不能过难或过易,这样项目才具有一定的辨识力。这一要求反映在三参数逻辑斯蒂模型中就是项目难度一正确率的关系必须近似于一条“S”形曲线,对于那些近似于直线的题项则直接予以剔除。在此次检查中,A、B卷各删除了两道题。
(3)模型拟合度验证:在这一过程中,主要考察测试数据分布是否符合三参数逻辑斯蒂模型的理论分布。它属于离散型非参数检验,主要考虑样本实际频数与总体理论频数的差异大小,故一般采用卡方检验。考虑到即使样本很大时X2检验也可能拒绝零假设,故此次模拟度检查采用服从n-k的X2分布的杨统计量(Yen Statistic)检验,其最大特点是当样本数在500-1000之间时拟合效果最佳。通过专业软件ANOTE 1.6计算后,如果其X2检验的杨统计量超出了显著水平,则将该项目予以剔除,如A卷中的第10题和B卷中的第6题。
(4)项目的参数计算:由于项目参数和能力参数均为未知,故一般采用联合极大似然估计法,这实际是一个先给定初值,然后双向交替迭代直至收敛的过程。在ANOTE 1.6软件上,通过选定项目反应理论程序模块上的“二级评分三参数项目估计”即可得到各项目的难度、区分度和猜测度参数。此外,对于项目的参数还要进行阈值检查,即区分度、难度、猜测度分别在[0.3,2.0]、[-3.0,3.0]、[0,0.25]之间。超过阈值的项目也要予以剔除。如果要实现随机组卷功能,还要在A、B卷中设置锚点,这样才能进行等值化处理。
2.组卷
一份高质量的试卷不仅要涉及所学课程的全部知识与技能,还应重点突出、比例恰当。为此,笔者首先运用ISM法(Interpretive Structural Modeling Method)对教材的知识点进行结构关联性分析,这样便于从宏观上依据知识点之间的相关性大小去把握教材的内容比例与难度;接着紧密结合义务教育数学课程标准中的内容——目标要求,重点考察学生对相关知识点的理解程度和进行应用时所表现出来的思维深度,具体划分为识记、理解、应用、分析与探究五个精熟度水准,其中识记、理解题的分值约总分数的50%,而应用分析类、探究类所占分值分别是总分数的35%和15%。整个试卷由25道题组成,具体说明试卷中各章节知识点、考核目标、内容比例、难易性质的双向细目表如表3所示。
3.施测
整个测试分为试测和正式施测两个阶段。在第一轮的项目试测中,被测人数和测试项目理论上都是越多越好,故从E中学初三年段的全部10班中随机选择了6个班,合计332人,其中三个班用A卷测试,另外三个班用B卷测试。在第二轮的正式施测中,笔者从剩余的4个班中随机抽取了1个学习状况处于中间水平的班级,该班有学生57人,除去因病事假学生,实际参测人数为54人,去掉无效问卷3份,实际有效样本为51个。
(三)主要指标分析
1.学习素养的因子分析
以表1中的F1-F9分别作为纵轴和横轴,以彼此间的相关系数构造因子载荷矩阵,经SPSS 20.0计算后,发现其KMO=0.816≥0.7,且Sig.=0.000≤0.01,故适合进行因子分析。主成分分析后的各变量方差解释结果如表4所示。由表4可看出:前三个公因子合计解释了方差贡献率的74.9%,故提取这三个公因子就可以较好地解释原来9个变量的变化情况。
经坐标旋转后的因子载荷矩阵如表5所示,表中数值是该变量与所在公因子之间的相关系数。为了清晰起见,将相关系数在0.5以上的指标在表中以方框标注。由表5可见:公因子1以精致策略为代表,还受到记忆策略、知识迁移、交流合作、学习调控策略、反思与创新、学习参与度的影响,但它们的相关系数渐次减小,而且它几乎不受学科成绩(F1)和信息资源利用(F9)两个指标的影响。由于它对学习素养的方差贡献率达到了近一半,能较好地代表了学习素养水平,故可以将其称为素养因子。同理,与第一公因子相互独立的第二公因子和第三公因子则分别反映了学生的考试得分情况和信息资源利用情况,因此,可分别命名为成绩因子和资源利用因子。
2.认知策略的使用分析
如前所述,認知策略包括传统的记忆策略和以知识点的深度理解与整合为基础的精致策略。为了统一量纲,笔者将学生的测试成绩按照[0,20],[21,40],…,[81,100]五个间隔转换为五级计分制。不同成绩水平的学生使用记忆策略与精致策略的情况如图4所示。 从图4可以看出:不同成绩水平的学生使用记忆策略和精致策略的情况是不同的。在当前状况下,成绩优秀的学生更多使用记忆策略,而中等成绩的学生反而更注意使用精致策略,由于他们的知识得到了较好的理解和整合,反而使得他们在日后的工作、生活中具有较高的情商和创新意识。这也与在当前的教育背景下成绩最优秀的学生往往很难成为各行业的领军人物这一社会现象相符合。
3.知识迁移水平
知识迁移反映了学生学习后是否获得了触类旁通的情境问题解决能力,这与学习后所形成的语义知识网络的规模大小和层次有关。考虑到指标数据主要是非连续型的等级数据,故采用的是Spearman相关检验。在样本数N=51时,各评价指标对知识迁移水平的影响程度如表6所示。在该表中,精致策略F4、交流合作F7、反思与创新F8和学习参与度F2都会明显影响知识迁移水平,而学科成绩F1和信息资源利用F9则对知识迁移水平几乎没有影响。
如按照对因变量贡献最大且符合判断条件:F≤0.05时进入,F≥0.1时予以删除的规则逐一引进各自变量,还可得到知识迁移水平预测的回归方程:
4.各指标均值与标准差比较
指标的集中量和差异量往往可以通过其均值和标准差来加以刻画。经计算,9个指标的平均值为3.29。各指标的均值和标准差如图5所示,均值最大的为交流合作指标F7,其次是记忆策略F3,最小的是信息资源利用F9,其数值分别为3.59、3.44和2.76。这一现象与学习是一种社会活动、具有很强的互动性这一特点有关。不过,被试的学习目的重在获取比较理想的分数,认知方法主要是机械记忆,这不利于形成自己的立体化语义知识网络,从而间接影响了日后创新能力和知识迁移能力的提高。此外,信息资源利用F9的均值最小,这也在一定程度上说明在当今学习背景下,学生普遍还沒有养成充分利用万维网上的各种数字化学习资源作为学习手段有效补充的习惯。在差异量方面,学科知识(成绩)F1的标准差为0.934,是9个指标中最大的一个,而标准差最小的是反思与创新F8,这说明初中生学习中的两极分化现象比较严重,而反思与创新能力都在较低水平徘徊,不具有明显差异。
5.反思与创新等四个指标的横向比较
学生通过学习活动汲取知识,但其根本目的还是要解决自身所面临的问题。能否在应用中收获创新与效率是判断教育成败的关键指标之一。从研究结果看,学科成绩F1、学习参与度F2、知识迁移F6和反思与创新F8这四个指标的均值依次是3.35、3.24、3.39和3.28,只有学科知识F1在平均值3.29之上,而学习参与度F2和反思与创新F8均没有达到平均水平。上述四个指标在不同成绩水准学生的频数分布如图6所示。从该图可以看出,四条曲线都呈准正态分布,但它们的峰度和偏度明显不同,众数所在区间也不同。反思与创新F8和学科成绩F1较为同步,知识迁移水平最高的那部分学生成绩表现为中等和中等偏上,学习参与度F2则呈现明显的负偏态。
(四)研究的效度
本研究通过双向细目表来保证了内容效度,但在此次测试与调查中,学生能力是否得到了稳定发挥尚不得而知。为此,本研究将此次测试成绩分别与该班期中考试和上一次月考的平均成绩进行了t检验,按式(3)进行计算并查表得知:在显著性水平α=0.05、自由度df=51条件下均接纳了测试样本总体的平均分μ与假设总体平均分μ0之间没有区别的零假设。
五、反思与展望
概括地说,价值是活动对象的客体属性、功能与主体需要的一种关系表征。学习评价是一种对学习活动能在多大程度上满足主体需要的价值判断活动。因此,评价研究中特别注重三个基本问题,即为什么而评、评什么、怎么评、从本质上来说,学习评价归根结底是一个认识问题,更确切地说,是一个由点及面、由浅入深、由现象到本质的认识过程。
首先是取样规模问题。模型验证的样本来源越广,项目参数的适应范围也就越广。如果考虑到数据处理的工作量大小,也可严格按比例进行随机抽样。在类别差异较为显著时还可采用分层随机抽样的方式。受时间、精力所限,本研究的样本都来自于同一所学校,同一年级的学生规模不超过1000人,因此,研究结论属于个案性质。当然,从郑州E中学所处的地理位置和生源结构来看,其结论也有较强的普适性。
其次是拟合模型的选择问题。对于IRT来说,不同性质的测试会有不同的最佳适应模型,因此,在模型拟合阶段可以尝试使用不同的数学模型。由于数学和科学领域往往具有客观性和精确计量的特点,可选择二值计分模型。但是,对于重在捕捉信息和意义的阅读领域来说,答案往往是基于情感和意义的选择,具有一定的主观性,此时选择多级计分模型更为合适。因此,笔者在对厦门L中学高一学生阅读策略的评价研究中改用了五级计分的等级反应模型(Graded Response Model)。
再次是信息函数的使用问题。信息函数I(θ)反映了某一项目对某被试能力的分辨程度。因此,只有在测试中找出那些难度与被试能力最为接近的项目(此时项目的信息函数值最大),才能保证测量误差最小。具体来说,在组卷时,如果一套试卷的信息量达到25,其标准误差将小于0.2。在进行自适应测试时,如何围绕最大信息量设计一种快速而有效的算法也是一个值得研究的问题。对于CAT,笔者尝试将所有项目按照难度大小分成数层,然后依据信息量不断增大的原则进行试测,直到前后两次信息量之差小于某一可接受的误差之后才停止。为充分利用第一手项目测试数据和减少调试工作量,整个选题流程在经过蒙特卡罗(Monte Carlo)模拟实验予以证实并且取得满意效果后才正式形成算法,编写代码。
最后是该评价模式的应用前景问题。历经六年多的探索验证,该评价模式已相对成熟。预计在未来一段时间内,研究将从目前以初中生为研究主体,逐步扩展到小学五、六年级和高中一、二年级学生,内容涉及阅读、数学和科学三个领域,建设一个中等规模的多媒体试题库,在学习素养评估专题网站中采用实时问卷调查和基于IRT测试相结合的办法,以本研究中的指标权重为基础,转换成一个百分制数值,将结果解释和未来完善建议一并即时反馈给该网站用户。这些用户可能是广大学习爱好者或学校教师和教育研究人员,甚至可以是家长。