生态学视角下信息技市和玉言测试深度融合研究

来源 :中国电化教育 | 被引量 : 0次 | 上传用户：something190

【摘要】

：

【作者】

：

梁丽娟

【出处】

：

中国电化教育

【发表日期】

：

2015年5期

【关键词】

：

测试适应性题目题库考试语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：适应性测试是信息技术与教育深度融合在测试领域的体现。基于测试的生态学视角，本文设计实施了适应性语言测试。通过改编现有试题进行题库建设降低了题库建设成本；采用以组为单位的跳转原则减少了对试题的需求数量。实验证明依据上述方法设计的适应性英语阅读测试具有良好效度和信度，为今后适应性语言测试在中小型测试中的推广提供了借鉴。
　　关键词：深度融合；适应性测试；信度；效度
　　中图分类号：G434
　　文献标识码：A
　　一、引言
　　信息技术带来了教学模式的转变，学生个人的主动性得到充分体现，教学主从关系翻转。这种改变促使我国教育信息化从初步应用整合阶段向信息技术与教育的深度融合阶段转变。这种转变在测试领域也日益体现。近年来，测试领域经历了从纸笔测试到计算机测试的转变。测试的媒介发生了变化，信息技术与教育的深度融合不仅局限于媒介变化，而是测试的深层改变。
　　二、生态学视角下的测试观
　　20世纪70年代以来，教育与生态学的结合衍生出了一系列相关研究，如教学生态、课堂生态、学习生态。近年来随着信息技术的发展义出现网络学习生态等等。其主要观点认为，学习环境是由众多要素构成的有机体，如课程、教学、学习和课堂；学生和教师作为学习环境中的主体与环境相互作用就构成了一个教学生态系统。以教学生态、课堂生态和学习生态等反观测试，就形成了生态视角下的测试观。生态视角下的测试属于教学生态系统的一部分，它应具有这一系统共有的特征即开放、共享、交互等。以测试系统的交互性为例，交互指的是受试与白身之外的任何生物或非生物进行的交互，如受试与考试资源之间的交互。一般来说，测试生态系统中，外部交互较多的受试能更好地利用考试资源从而体现自身的水平。因此在生态视角下的测试中我们应该重视这种交互，使受试能主动选择，利用适合自己的考试资源。传统的纸笔测试不能充分实现这一任务。随着信息技术在教育领域的深入应用，基于计算机的适应性测试（ComputerAdaptive Testing，简称“CAT”）是一种更理想的选择。所谓适应性就是测试软件自动地适应被试的具体情况，在被试作答过程中根据作答的正误估算出被试的可能水平，并针对这一水平迅速决策，从题库中调取难度恰当的题目继续施测。直到施测的题目足够多，测试信息量达到一定精度为止。它不同于传统的纸笔测试，是一种非顺序、非线性的测试方法，是更加科学化和人性化的测试方法。本文基于测试的生态学视角，以语言测试为例，就适应性测试的设计和实施进行了实证性研究。
　　三、相关研究
　　（一）国外研究
　　第一个适应性语言测试由美国杨百翰大学（Brigham Young University）实施，并且证实了适应性阅读测试相对于传统阅读考试的效率。Laurier在法语适应性考试中采用30词左有的段落作为阅读材料，并从考试内容、技术要求和实施等方面进行了可行性论述。Zahaleta研究发现在普通机考和适应性考试相结合的测试中语法和阅读的得分具有很高的相关性。总体来说，以阅读为主要内容的适应性语言测试研究仍处于探索阶段。尽管一些研究证实了适应性测试的效率，但阅渎测试模式对考试效度和信度的影响研究仍需深入探讨。
　　（二）国内研究
　　在国内，相对于计算机在教学中的广泛应用，计算机在语言测试中的应用还有待深入。目前已实施的适应性语言测试较少。曾用强对比了不同的CAT模式在词汇测试中的效果。韩少杰和李新涛研究了适应性考试信度和预测效度。张武保进行了白适应性词汇测试与适应性词汇测试。在上述实施的适应性测试中，两项是针对词汇的研究，两项是综合性考试研究，笔者认为适应性语言测试的开发和有效性研究应该在总体研究的基础上进行分项研究，也就是对不同语言技能（听说渎写）的适应性考试进行分别研究。阅读能力是一项非常重要的语言技能，义是各种考试考察的重点，所以本文就如何设计有效的适应性阅读测试进行研究。
　　四、适应性阅读测试设计
　　（一）题库建设
　　试题库的质量决定适应性测试的成败。试题库需包含充足的试题数量，试题必须能反映考生某一语言技能的水平。题库设计的第一个问题是题库的大小。题库太小，不能提供足够的试题实现跳转；题库太大会增加题目设计者的负担。研究发现试题库的大小为适应性考试固定长度的12倍左右能满足考试内容和结构上的需求。本测试预计在30分钟左右，每位考生完成20-28个阅读题目，由此计算出本试题库应包含约320道题目。题库设计的第二个问题是题目质量。一般来说，适应性考试的试题需要经过实测得出难度系数、区分度等相关信息，但由于费用等原因实测往往不现实，所以采用编纸笔测试的试题成为另一种选择。Young等在设计容量为300-500道题目的题库时使用了改编白分级阅读材料的题目，研究发现考试效度不受影响。因此本研究采用改编试题。
　　（二）题型
　　本研究中所采用的阅读题目形式为短语境阅渎，阅读题目题干平均40字左右，形式如右图所示。传统篇章阅渎理解中一篇文章后往往有4-5个问题，如何在适应性考试中确定难度和考点成为难题。而短语境阅读由于单一的问题和短小的题干，更容易确定题目的难度和考点。由于语境短了，所选的材料类型可以大大增加，多种类型的阅读材料更能体现读者的阅读能力。研究证明短语境阅渎形式能有效测量阅读者的阅读水平。此外，我们在对题目进行改编时考察了不同的阅渎技能，如词义相关、例证、描述结论、逻辑推理、目的、对比、情境判断和因果关系等。
　　（三）具体设计
　　根据题目难度我们将题库中题目划分为4个等级区域：入门、初级、中级、高级。4个等级之下共包含10个次级别：入门1-2级、初级1-3级、中级1-2级、高级1-3级。测试分为两部分，第一部分为探查阶段。探查阶段的起始点位于初级区域。分配学生4道难度不同的题目，如果全部答对就进人中级；如果错一个则继续完成初级阶段的另一组探测题（题目难度和上一组相当），如全部答对也能进人中级，否则根据刚才8道题的得分给学生分配相应的定级试卷。在初级探测阶段成绩较好的学生会进人中级探测阶段，再根据表现学生可以进入高级阶段，或者进入中级的定级阶段。　　测试第二部分为定级阶段。要分配给适合考生水平的题目，因为这样才能提供关于考生水平的最大信息量。为了满足这一需求，我们按照难度将试题库中的题目分成20多个级别的分试卷，每个分试卷都含有12道题，由3组题目组成，每组包含4道题。相邻的分试卷有8道题是重合的。这样设计是因为被分配到相邻分试卷的学生水平差异并非很大，他们之间的能力是有重叠的。根据学生的答题情况判断他们在10个级别中的位置。
　　本设计的特点是以组为单位跳转。比如考生完成探查阶段做完初级探查的四道题目后，正确率若为100%，则跳转到中级第一组；如果正确率低于100%，则继续做完初级阶段第二组题。设计也充分考虑到考试的偶然性。如在第一组探测题中学生出现一个错误，我们认为这具有一定的偶然性，因此给学生机会完成第二组探测。如果学生在第二组
　　探测题中表现出色同样能向上级跳转。
　　五、实验
　　我们采用实验的方法，在实验班进行初测与再测，还对适应性测试成绩与期末考试成绩进行了相关分析。
　　（一）实验对象
　　我校目前实施分级教学。根据学生入学英语考试成绩将学生分为一级班、二级班和三级班。该实验以熟悉网络技术的信息与电气T程学院二级班41人为实验对象。
　　（二）数据采集
　　本实验采集的数据为两次适应性阅读测试成绩、期末考生成绩和调查问卷。第一次适应性测试于2014年11月实施，并于12月进行再测。两次测试前后相隔1个多月，以降低前测对后测的影响。两次适应性阅渎测试均安排在同一语音室，并在相同的时间段进行，即都是上午8点开始。第一次测试后采用问卷调查学生对考试的态度，问卷为五级量表，按程度强弱打分，5为强，1为弱。受试于2015年1月进行期末考试。考试形式为传统的纸笔综合性考试。我们通过SPs S20.O对实验数据进行了分析。
　　（三）研究结果分析与讨论
　　1.测试信度
　　为了验证适应性阅读测试是否是一种较为理想的测试手段，首先对考试信度进行了验证。信度是由同一个考试所得m分数的一致性。影响信度的因素分为一般、环境和个人因素。一般因素包括考试指令是否清晰，学生对考试形式是否熟悉；环境因素指环境的舒适度或噪音等因素；个人因素包括考生个人的生理或心理状态等。问卷数据包含了影响信度的种种因素。在各种相关因素基本稳定的情况下，如果两次测试成绩相关性较高，则说明这一测试具有较高信度。2014年11月第一次适应性阅读测试后，通过问卷就考试指令、界面等对学生进行了调查，结果如表1所示。
　　问卷统计结果显示学生认为考试界面和考试指令的清晰程度是很高的，分别为4.20和4.18。对考试环境和考试当天个人状态及对鼠标点击和键盘操作的熟练程度评价较高，分别为3.87，3.98和3.64。在这种情况下，分别计算出学生在两次适应性测试中的成绩以及它们的测量标准误差（如表2所示），然后对学生两次适应性测试反映的能力值作了皮尔逊相关分析（如表3所示）。
　　两次考试成绩均值分别为5.36和5.98（本研究中适应性阅读测试的计分原则不是百分制），差异性显著。因为两次测验前后相隔一个多月，测试所采用的题目难度相当。第二次测试平均成绩高于第一次测试体现出学生水平的提高，这说明本测试对于学生的进步是较敏感的。
　　根据表3，本研究中两次考试的相关系数为0.892。一般来说大型的标准化考试信度要达到0.90。但对于中小规模的低风险测试，信度达到0.892是可以的。
　　2.校标关联效度
　　效度研究在当今语言测试研究中具有非常重要的地位。Bachman认为语言测试专业化和语言测试效度研究是语言测试界现在和未来研究的两个重点领域。在适应性语言测试中语言测试效度包括内容效度、结构效度、效标关联效度等。本文关注的是校标关联效度，指的是测验分数与外在校标间的符合程度。若两者相当符合，则表示校标效度高，反之则否。
　　我们把学生期末考试成绩作为外在校标，把适应性阅读测试成绩与期末考试总成绩做相关分析，如表4所示。数据显示两种考试在.01水平上显著相关，相关系数为0.766。期末考试为包含听力、阅读、翻译、写作等内容的综合性考试，而本测试为阅读单项测试，能够达到0.766的相关性是较理想的。
　　3.讨论
　　白生态学的思想引入教育领域以来，教育生态日益成为备受关注的领域，并为我们重新审视教育中存在的问题提供了一个全新的视角。生态学视角下的测试观对测试提出了更高的要求。适应性测试能够更好地实现考试的交互性，并具有开放性、多人共享的特点，因此构建适应性测试环境成为近年来教育应用领域的研究热点。
　　特色一：生态视角下的适应性测试
　　从生态学的视角看，适应性测试更容易帮助考生构建与考试环境和谐发展的生态系统。学生对考试的反馈问卷显示，学生认为本次考试难度适当。主要原因是计算机会根据学生的答题情况提供与其水平相适应的题目，这样不仅能在更短的时间内提供更准确的考试信息，还能降低考生因为遇到高难度题目时产生的负面焦虑，营造积极的考试氛围。此外，适应性测试还能通过信息技术使考生隐性的问题显性化，从而促进新资源的生成，调节考生与考试环境的关系。
　　特色二：通过改编现有试题进行题库建设
　　适应性测试的效果很大程度上取决于题库质量。题库的建设研制成本较高，因为试题的编纂需要大量经验丰富的教师来进行，并且需要进行具有一定规模的实测来获得试题参数，如难度系数和区分度等。在低风险的考试中题库建设成本的问题可以通过改编现有试题加以克服。本研究根据实测数据将阅读材料划分成若干不同的等级。对现有试题进行评估改编从而作为题库题目来源，可以有效控制题库建设成本。研究结果表明通过对现有试题进行改编而进行题库建设的做法是可行的。
　　特色三：以组为单位的跳转原则
　　跳转原则可以根据测试的不同类型来定义。本研究中采用的是以组为单位的跳转原则。每组包含四道试题。根据考生答题的总体情况决定下一组题目的难度，这不同于其它适应性测试中以题为单位的跳转原则。首先，以题为单位跳转必须要具备庞大的题库，这在中小型考试中会给设计者造成很大的压力；其次，以题为单位跳转对题目难度的划分要求相当严格，一般只有实测题目才能精确计算出相应的难度系数、区分度等指标；再者，以题为单位的跳转忽略了考试中的偶然性，进而给考试带来额外的负担。
　　测试结果表明上述生态视角下的适应性英语阅渎测试具有良好的信度和效度，说明通过改编现有试题进行题库建设和采用以组为单位进行跳转的做法在适应性语言测试的开发中是可行的。
　　六、结论
　　测试经历从纸笔测试到计算机测试的转变，这是信息化与教育深度融合在测试领域的趋势。生态学视角下的适应性测试比传统考试更科学有效。本文尝试设计了适应性语言测试，设计通过改编现有试题进行题库建设降低了题库建设成本，采用以组为单位的跳转原则降低了对试题的需求数量。实验证明依据上述方法设计的适应性英语阅渎测试具有良好效度和信度。计算机辅助的适应性测试代表了未来语言测试发展的方向，应该加快研究的深入和加大研究的规模。

其他文献

抓住掌握接收按钮的人

接到朋友的约稿电话，我匆匆听了个大概，便以“正在开会”为由结束了通话。其实我在玩游戏，我的心正被自己培养的人物在游戏中不断升级而带来的激动一次又一次冲刷着，快乐无比，无暇他顾。　　挂了电话我还有过一闪念：如果我的人物今天能冲到60级，那么类似中国主流价值观在各种媒介中如何有效传播之类的话题，完全是可以先放在一边的。让它等一下又有什么关系？反正它已经在那里好多年了。　　其实几乎所有的普通人都和我一样

期刊

快乐互联网的是中国价值观也有

你最爱吃的“羊肉串”，在新疆根本就不存在

当我带着“终于要去羊肉串老家一探究竟”的心情去到新疆时，才发现所谓的“羊肉串”，在新疆根本就不！存！在！　　新疆的“羊肉串”，从称呼到原料，从腌制方法到烧烤工具，都有着一套自己的原则和坚持，这种差异主要体现在三个方面。 01称呼　　最直观的，就是叫法上的不同。叫了这么多年的“羊肉串”，到了新疆有且只有一个名字，那就是“烤肉”，就算退而求其次，也得叫“肉串”，而无须冠以“羊”字。如无特指，新疆的烤肉

期刊

烤肉新疆钎子羊肉羊肉串哈萨克族

殊途并行,向目标挺进

屈指一数,我在三尺讲台上已经站立了近三十年!现在还依然记得刚刚走上讲台时的情景,真是时光流失、日月如梭啊!三十年的数学教育生涯,有太多的感触、感慨和感悟.如果说自己是成功的,那肯定离不开领导、前辈、同事和朋友的支持与帮助.就个人而言,我最深切的体会是：殊途并行,向目标挺进.　　1 实践之路　　对学生来说,课堂不仅具有获取知识、发展能力、提高素质的意义,更具有生命的意义.课堂是学生生命成长的舞台.央

期刊

学生自己的数学教师课堂过程

解放军能出现在“变5”中吗

历史上植入广告最多的一部变形金刚系列电影——《变形金刚4》正在狂吸中国票房。　　这部电影号称有三分之一的植入元素来自中国。当中国观众看到解放军将领在北京“鸟巢”西侧的盘古大观内坚定表达“中央政府一定会支持香港”的态度时，大多满心以为下面会出现解放军新式坦克大战反派的情节。　　就像之前的三部变形金刚电影中，美军用“M1A1”坦克和“A10”战机帮助汽车人扭转战局那样。结果，出现在镜头中的只有一掠而过

期刊

美军美国变形金刚好莱坞军方海军陆战队

专递课堂教学点规模与学习行为有效性相关分析

摘要：同步互动专递课堂是湖北省农村教学点主要教学模式之一，这种教学模式下学生学习行为有效性受到多种因素的影响。研究者在控制了其他影响因素的条件下，探究了同步专递音乐课堂教学点规模与学生有效学习行为率之间的关系。研究者通过“湖北省农村教学点网校管理与服务平台”，采集了湖北省成宁市崇阳区同步专递小学音乐课堂录像资源，经过样本筛选、学生学习行为编码和数据采集等过程，运用热点图和LOESS曲线拟合，分析组

期刊

教学点专递课堂样本湖北省学生

宽带二级运营商：失守“最后一公里”

宽带很宽，网速却很慢。问题到底出在哪里？　　中国消协公布的2013年全国消费者投诉情况分析结果显示：在服务类投诉中，网络接入服务投诉量居第二位，达到22081件，同比增长约24%。　　全国平均网络下载速率并不低；但从消费者的投诉来看，用户宽带上网的体验满意度仍不高。问题的关键似乎出现在宽带输送的“最后一公里”——二级宽带运营商（小区宽带运营商）。　　“所谓的‘假宽带’，在二级运营商那里是比较突出的

期刊

运营商用户网速下载速度中国联通中国电信

美国教育管理者信息化领导力提升策略管窥与启示

摘要：教育管理者的信息化领导力是区域教育信息化发展和建设的重要影响因素。随着我国基础教育信息化区域层面推进方式的不断深化，教育管理者的信息化领导力亟需予以关注。美国教育技术办公室发布的《未来准备领导力特征：一项研究综述》指出“为未来准备的领导力”的四个核心领域：协作领导力、个性化学生学习、稳健的基础设施、个性化专业学习，并针对每个领域给出了学区领导应践行的标准。文章通过对《未来准备领导力特征：一项

期刊

学区领导力领导教育信息化区域学生

人生如行路

人生如行路，一路艱辛，一路风景。你的目光所及，就是你的人生境界。总是看到比自己优秀的人，说明你正在走上坡路；总是看到不如自己的人，说明你正在走下坡路。与其埋怨，不如思变。　　节选自《你变了，世界就变了》中国华侨出版社

期刊

的人人生走下坡路中国华侨所及

给高考一个轻松的理由

高考前一天，北京市教委新闻发言人告诉考生，该市今年高考录取率会保持在70％以上，劝他们不要过分紧张。确实，比起他们的哥哥姐姐来，现在的竞争似乎并不那么激烈，70％的北京考生，74．5％的辽宁考生和80％的上海考生都能如愿以偿考上大学。他们应该轻松很多。　　高中阶段提前分流、高等学校扩大招生，已经大大拓宽了“千军万马”要过的那座“独木桥”。除了大幅提升的录取率，整个社会也在尽量为高考营造轻松的氛围：

期刊

考生轻松自己的人才考试录取率

从冰心墓碑被毁谈现代家庭伦理

2012年5月31 日，作家冰心和丈夫吴文藻位于北京八达岭附近的墓碑被人用红色油漆涂上八个大字：“教子无方，枉为人表”。此事竟是冰心孙子吴山所为。　　冰心与吴文藻育有一儿两女，其子吴平共有过两段婚姻：第一段婚姻因吴平被打成右派而结束；后来与第二任妻子，即吴山的母亲陈凌霞结合，育有一儿一女。吴平与陈凌霞婚后感情淡薄，并于2011年正式离婚。　　吴山的不满源于父母离婚时的财产分割。有媒体报道说，吴平

期刊

冰心兰溪道德伦理家庭吴山

生态学视角下信息技市和玉言测试深度融合研究

与本文相关的学术论文