为什么标准化考试成绩不能衡量教育质量

来源 :中小学信息技术教育 | 被引量 : 0次 | 上传用户：wenzl1999

【摘要】

：

【作者】

：

唐劲松/编译

【出处】

：

中小学信息技术教育

【发表日期】

：

2014年10期

【关键词】

：

考试测验测试学生学校成就

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　编者按：本文探讨美国标准考试与教育质量之间的相关性，他山之石可以攻玉，编发此文希望对我国基础教育质量的评价研究有所启发。
　　教育工作者正承受着近乎无情的压力，这些压力主要是如何证明其工作的有效性。不幸的是，大多数社会人士判断一所学校成功与否的主要指标就是标准化测验。如果一个学校的标准化考试分数很高，人们就会认为该学校的工作是出色的、有效的。反之亦然。如果这种教育质量是由错误的标准来衡量的，那么所有评价就会是错误的。学生的标准化考试成绩是评价一所学校的最重要的因素，看似很简单，但大多数教育工作者并不明白为什么一个标准化的测试会导致人们对学校教职员工工作效能的错误估计。
　　测试有两大类，标准化考试测验和成就测验。标准化考试测验预测学生在一些后续的教育环境中将如何表现。最常见的例子是SAT和ACT，这两个测验都是想知道学生将来的成就如何。但是，标准化考试的成绩就是市民和学校董事会成员评估学校效能的依据。在全国范围内，五个标准化测试包括：加利福尼亚成就测验、基本技能综合测试、爱荷华基本技能测试、大都会成就测验和斯坦福成就测验。
　　标准化测试的评估团
　　那些创造了标准化考试形式的人是非常有才华的人。他们正在尝试做的是创造一种评估工具，允许某人做一个有效的推理的知识或技能，一个给定学生特定内容的区域，更确切地说，这个推理是参照了国家的学生样本（相同年龄或者年级水平），他们的相关知识和技能。
　　评估孩子在特定领域的知识或者技能的掌握情况，可以给家长和教育者提供参考的信息。例如，父母发现孩子在四年级语言艺术（94分）、数学（89）方面表现很好，而在科学（39分）和社会研究（26分）方面表现得差强人意，这说明了一个孩子的长处和弱点，不仅对老师有帮助，对家长也有帮助。同样，如果教师知道他的学生与全国的学生比较后所处的位置，他就可以利用这些信息来制定适当的课堂教学。不过，现在任何年级水平的儿童都有可能知道大量的知识或技能，这给标准化成就测验带来了真正的困难。如果一个测试要覆盖所有的知识点和技能，这会导致考试过程过于漫长。标准化考试测试的项目样本应该比实际需要的小得多，因此这种考试在内容范围上比实际的要窄得多，通常测试只在某一个学科领域测试40～50个项目。
　　准确的分类
　　开发标准化成就测验的任务就是基于少数项目建立一个评估工具，从而产生一个学生的位次的常模，参照的最好标准是大约一半的学生回答正确。聪明的标准化考试开发者会不断避免太大或者太小的学生样本。
　　对于学生测试的成绩进行抽样和评估，是一件非常复杂而艰巨的工作。假设全国常模是代表整个国家，那么产生的数据对于教育者、家长及学生都是非常有用的。其中一个最有用的推论是学生在学科方面的优势和劣势。如果一项测试中有较多的内容可测，也可以知道学生在这所学校学习的广度和深度方面的情况。如，数学的标准化测试有15项基本的计算题、15项几何题、15项代数题，就可以考查学生对于这三个领域在哪个方面具有相对优势或劣势。不过，如果考试包含的内容过少，对于学生的强项或弱项意义不大。第二个基于标准化考试的有用信息是涉及学生在不同学科领域的成长情况。例如，每三年学生参加统考，有一个学生大部分科目的成绩和以往相比差异不大，但数学却出现急剧下降，在某次考试后尤其如此，这就是有用的信息。但家长和教育工作者往往把太多的关注放在标准化考试成绩的精密度和准确度上，要知道影响分数的因素有很多，所以这种测试的数据是比较粗糙的。综上所述，标准化考试的成绩提供了全国范围内的学生的知识体系和技能的一个常模的参照，这是一个很棒的工作，相当有用。但是，给定的内容领域中所代表的广度和宽度必定是有限度的，所以，标准化考试测验成绩不应该用来评估教学质量，那不是它们该做的。
　　用一个汤匙来测量温度
　　标准化成就测验不应该被用来衡量教育质量，最主要的原因是，学生的成绩并不代表教育效能，任何基于它的对教学质量的推理往往是无效的。采用标准化考试的成绩来确定教育质量像用一把汤匙来测量温度——汤匙可以测出热或冷，标准化考试的成绩在指示好或者不好的学校方面有不同的测量任务。它应该被用来作比较的，目的是提供参考，而不应该被用于衡量教育质量。为什么说从标准化考试分数推测教育质量是完全无效的呢？我认为主要有以下两个重要原因。
　　1. 测试与教学不匹配
　　这些标准化考试的数据都是由大公司所有，由公司创造和销售的。像所有营利性企业一样，这些公司试图为他们的股东带来收益。销售标准化考试题的巨大压力和在市场上遇到的困境，以及美国各地大量课程的多样性，使得标准化考试与各地不同的课程教学内容对接上存在脱节现象。在州里问题变得更加复杂，因为不同州或者地区的学校可以有更多的本地化的课程。
　　通常，教育者在不同环境中追求的目标是类似的。例如，你可以肯定的是，所有的学校都会注意语言艺术、数学等。但是，这是通常情况。在这个水平上真的有差别的课堂教学，在教育目标追求上存在差异。这提出了一个问题，让那些必须出售标准化成就测验的企业来解决。
　　基于全国范围的课程多样性的情况，测试开发人员不得不创建一系列的一刀切的评估。但是，均码的衣服并不适合所有的身材。这些测试的设计师，他们可以在选出的最佳测试项目中测量所有内容领域的知识和技能，这只是他们所认为重要的，并不能够把所有学习内容包括进去。因此，标准化考试的成绩总是包含了很多项目，在特别设置的环节总是特别强调。这说明了本地教学内容与标准化考试所考内容之间的严重不匹配。教育者都知道，密歇根州立大学的弗里曼和他的同事们在1983年发布了一个重要研究报告，他们选择了五个全国标准化考试的数学成绩，研究了4～6年级的教学内容，发现对考试成绩影响最大的还是学生们的教科书，他们还研究了4～6年级四种广泛使用的教科书，采用严格的审查程序，研究人员发现，标准化成就测验的项目并没有对教材有足够的重视。结论是，50%～80%的考试内容在教科书中并没有适当地解决。密歇根州立大学的研究人员说：“一个标准化的测试，对教材的使用不超过50%。” 　　好的，如果标准化考试的内容不在广泛使用的教科书中有令人满意的解决，那它就不会有一个特定的教育环境。不幸的是，因为大多数教育工作者没有真正熟悉标准化考试的成分，他们通常认为，一个标准化成就测验就是儿童阅读理解能力评估。“那很可能就是所谓的地方阅读测验而己，而更多的情况是，测试与教学之间并没有必要的匹配。”
　　如果你仔细研究标准化考试手册中的描述性材料，你会发现，这些描述需要对教材适应。与教材的不匹配，不管承认与否，往往会导致虚假的结论。将这个分数作为教育效益的指标设置，具有一定的局限性，因此标准化考试不应该被用于确定一个地区、一所学校或者一个老师的教学状态，几乎可以肯定，所教的和所考的不匹配。
　　2. 混淆因果关系
　　要理解这当中的因果关系，我们看一看标准化考试的考试种类，搞清楚什么是标准化考试，你得吃透内容本身。这里给的三个说明的项目只是模拟的版本，并没有本质上的区别。有三个因素令人困惑：一是学校里教什么；二是学生的母语知识能力；三是学生在校外的学习情况。学校里所教的，有些考试的内容和技巧，在这些特定的学习内容中，如数学，孩子们在学校中所学的绝大多数的内容就是他们所学的，很少有父母花很多时间教孩子复杂的代数和如何证明几何题。所以，如果你看一下标准化测验的项目，你会发现很多类似于下面所示的数学题，这是从一道三年级的考试题中稍作修改而来的。
　　题1 莎莉有14个梨，她拿走了6个，下面的一些算式中哪个可以用来计算莎莉留下了多少只梨？
　　A.14 6 = ___
　　B.6 14 = ___
　　C.__ -6 = 14
　　D.14-6 = ___
　　这道数学题能帮助教师考查三年级学生选择用减法的问题，采用一致有效的推理能力，口头陈述能力，或者如加法、乘法和除法的能力。这个题目将有助于学生选择适当数量的句子来进行各种基本的计算问题，培养一种口头形式的有效的推理能力。如果这种测量实际上已经在学校中学过了，我不会反对使用这些测试来确定教育质量的好坏。不过，你要看到，另外一些内容却藏在标准化考试的中间，即一个学生运用母语知识的能力。我希望所有的孩子都天生具有相同的智力，但事实并不是这样。有些孩子在基因方面是幸运的，有些孩子一出生就比别人容易学数学，有些孩子在语言学习方面比别人更聪慧，如果孩子在来到这个世界时继承了相同的知识能力，教师的教学问题会更简单。
　　教育者最近的研究表明，人的智能有多种表现形式，而非只有一种（加德纳，1994）。一个孩子天生处理定量或者口头任务的能力较差，因此，可能具有更大的“人际关系”或“内省”的能力，不过，后面的能力不能通过测试来得到。下面是一道六年级的社会标准考试题，试图用来衡量一个孩子的能力，但我不认为这个内容是可以在学校中学到的。
　　题2 如果有人真的想节约资源，下面哪种方法是好办法？
　　A.即使不需要也开灯
　　B.在洗衣时开小档而不是大档
　　C.在一张纸的两面都写
　　D.在垃圾中放置报纸
　　在这个六年级的社会研究题目中，仔细看四个答案选项。读每一个选项，看它是否可能是正确的。我认为，一个“聪明”的学生可以看出，选项A、B、D不会“节约资源”，于是选择C。聪明的孩子比不太聪明的孩子在这个问题的处理上要快得多。不过为什么是这样，你可能会想，这种测试题目的开发者他们有发展的思路吗？答案很简单，这些内容，由于天生的智力技能，这与学校不太相关，对于考试成绩，分数方差之类，再加上几个所谓评定学生的限制，这就成为构建标准化测验的制作秘诀了。但是，这样一个内容主要是衡量不同的学生天生的智力，明显不利于如下有效推论“学生们是如何被教好的”。我们会让所有的孩子在这种“本土智慧”上做好文章吗？当然可以，但使用这样的内容来判断教育的有效性是错误的。
　　标准化考试最麻烦的项目就是如何测试学生在学校外面所学到的知识。不幸的是，你会发现，这比你想象的东西要多得多。如果孩子来自于优势的家庭和刺激丰富的环境中，他们更容易成功。下面这道题清楚地表明了这一点。
　　题3 植物的果实总是包含种子，以下哪项不是一种水果？
　　A.橙
　　B.南瓜
　　C.苹果
　　D.芹菜
　　这道六年级的科学题首先告诉学生一个水果的属性是什么（即，它包含种子）。然后，学生必须确定什么“不是一个水果”，这是通过选择没有种子而找到了。如果孩子们了解芹菜，它是一种无种子的植物，这就是正确的答案。对应芹菜的选择就是正确的，答案为D。不过如果你年幼时父母没有钱在商店购买芹菜，如果你到六年级时你的境况根本不给你与芹菜这种植物接触的机会，你认为你会答对这道题目吗？这就是孩子的社会经济地位与标准化考试的表现之间的关系。你的家庭社会经济地位越高，你就越有可能在一些测试项目中做得更好。
　　如果你是一个学校的校长，学校中大部分孩子来自社会经济境况差的家庭，在考量学生的丰富背景知识的标准化考试中，你的学生做得如何？没错，你的学生不可能获得很高的分数，这是否意味着教师教得很差？当然不是。相反，让我们想象一下，你是一个富裕学校的校长，这些学生的家庭是上层阶层，孩子的父母受过良好的教育，每年春天你的学生的标准化成就测验的分数是高得耀眼，这是否意味着你学校的教师正在做一个超级棒的教学工作？当然不是。最主要的原因是，儿童的社会经济地位与标准化考试成绩相关，标准化成就测验的许多内容专注于评估知识或技能，学校以外的知识或技能更可能是在一些社会经济环境的比拼。
　　（本文翻译自以下网址：http：//www.ascd.org/publications/educational-leadership/mar99/vol56/num06/Why-Standardized-Tests-Don’t-Measure-Educational-Quality.aspx）
　　（译者单位：广东深圳市华富中学）

其他文献

基于群学网校际协作学习的教学实践

随着国家对教育信息化的日益重视和深层推进，信息技术在教育教学中的应用形式呈现百花齐放的局面，信息化方面的热点近两年接连涌现，有交互式电子白板、电子书包、微课、翻转课堂、远程视频交互、大规模在线开放课程等，大家都在根据现有条件积极探索，推动教学模式的变革。上海教育微信公众号近期分享了程红兵校长的文章《跳出形式化的藩篱》，文中指出，“今天许多学校的课堂教学模式建构基本停留在形式化的程序模式上，几乎成了

期刊

课程植物校园自己的学生教师

构建开放式的VR产业生态圈

2016年被称为“VR元年”，这标志着VR产业进入一个崭新的发展时代。VR产业的现状如何以及未来发展方向有哪些？带着这些问题，我们专访了网龙网络公司副董事长、华渔CEO梁念坚先生。请他站在行业、企业、产品、技术落地的角度，谈谈技术应用方向、落地应用现状和未来的可能。　　VR为什么到了2016年突然热了起来？VR大热的背后有怎样的技术发展支持？　　VR技术最早起源于20世纪60年代，受技术发展的限制

期刊

技术领域内容技术发展产业产品

第四届“1对1教学探索@西山国际峰会”举行

【本刊讯】2016年4月30日-5月2日，第四届“1对1教学探索@西山国际峰会”在人大附中西山学校成功举行。本届峰会以“融合·创新·激发”为主题，邀请来自新加坡、英国、澳大利亚、中国香港等地的嘉宾，共同交流分享1对1数字化学习经验，共同探讨信息技术与课程融合、跨学科融合等问题，共享一场教育学习的盛宴，激发教师和学生的潜能。峰会以主旨演讲、公开课、工作坊、体验式学习等方式展开，在课程、教学方面实现创

期刊

西山附中学校信息技术的是峰会

语文思维能力教学设计的实践研究

运用思维规律推动语文课堂教学　　2012年末，北京市门头沟区开展“运用思维规律，提升师生学习力”项目，该项目的子项目之一是“直接思维训练”，其内容为针对师生进行以思维方法为内容的直接训练，使学生通过一段时间的学习，掌握思考方法，养成良好思维习惯，提升思维品质，为各学科自主学习打下基础。在一个阶段的学习之后，逐渐展开各学科基于学生认知能力的探究性教学。教师需要按照相应的要求设计教学目标、教学活动以及

期刊

学生教师能力教学设计过程中教学目标

处处是创造之地，天天是创造之时，人人是创造之人

科学素养的内涵总是随着时代的发展而进化着。如何在信息技术环境下有效地提升青少年的科学素养水平是科学教育新问题。北京市东城区少年科学研究院引进了北京师范大学项华的“数字科学家计划（ESP）”项目，开设了“数字科学家”课程，同时举办了“数码探科学”比赛。实践表明，这种科学教育与传播方案深受学生、教师和家长的欢迎，参赛作品的选题面广，科学探究过程有趣而规范，是一种有效的大数据环境下科学素养水平提升方案。

期刊

科学家数字科学课程数码信息技术

虚拟课堂中学生学习方式的变化

互联网为人们打开了一扇神奇之窗，网络极大地方便了人们的学习，提供给人们海量的信息和资源，也改变着人们的学习方式。身处网络时代的青少年学生获得了比过去更大的学习空间，基于网络的学习方式不断地改变着他们的思维方式和思想观念。　　在信息化的时代背景下，北京市在课程改革中创新性地建设了北京数字学校。网络上的虚拟课堂是一个开放性的课堂，学习资源是开放的，学习方式是开放的，评价手段是多元的。从学的角度看，数字

期刊

学生课堂坎儿井草莓吐鲁番学生们

乱花渐欲迷人眼把握本质莫走偏

信息技术给教育注入了生机和活力，我们看到各学科的教学充斥着各种技术，大有技术喧宾夺主之势、乱花渐欲迷人眼之景。而技术学科却在刻意避开技术，甚至出现了泛技术、窄技术、非技术现象，这让人忧心不已。　　一个偶然的机会，我读到了杨晓哲的博客——《追问把握学科本质》。文章例举了一节语文课《月食》的教学过程。教学中，教师用了很多技术，却没有收到很好的教学效果。究其原因，是教师忽略了语文课本身，忽略了语文课重在

期刊

学生教师请柬信息技术语文课学科

从净化自然环境到优化教育教学环境

进入2013年，大半个中国持续的雾霾天气，让人们切身感受到空气污染对健康的威胁。一时间，雾霾、PM2.5“爆表”、空气质量改善成为社会关注的热门话题。越来越多的人意识到，享受现代物质文明不能以牺牲环境和健康为代价，开始反省过往的经济增长模式，声讨引发雾霾的元凶。　　浓重的雾霾也唤起了人们主动参与环境保护的意识，并为减少空气污染身体力行。据统计，今年春节，烟花爆竹的燃放数量大幅减少，空气质量有所改善

期刊

环境信息技术学生世界网络空气污染

让教育滋养创客让创客丰富教育

师访徒三年，徒访师三年。　　我把教师和学生的关系分为这样几种：他是我的学员，他是我的学生，他是我的学徒。具体说来，如果他听过我的讲座或者一个学期的大班课程，可能我不需要批改他的作业，甚至不一定记得他的名字，那么他可能只是我的一个学员。如果他是我的某一门选修课的学生，我批改他的习作，给他出题，我们曾经比较深入地聊过几次天，我比较了解他，可以说他是我的学生。如果我去过他的家家访，跟家长系统地谈过他的培

期刊

学生他是学徒硬件北京开源

睿智进取

宽厚的肩膀，浓浓的眉毛，总是穿着一件干净整洁的格子衬衣，脸上挂着淡淡的笑容，他就是北京市丰台区师范学校附属小学校长田昆升。1955年出生的他从事教育工作数十年，把自己的青春和汗水全部播撒在了丰师附小这片土地上。　　熟悉田校长的人都说他是一位睿智隽永的创新者，不知疲倦的实干家，诙谐幽默、满腹经纶的长者。他爱读书、爱思考，经常可以看见他捧着一本书在窗前若有所思，也经常可以听见他那言简意赅的经典语录：站

期刊

附小校长这片出了北京市睿智

为什么标准化考试成绩不能衡量教育质量

与本文相关的学术论文