计算机自适应英语能力测试模型设计与效度验证

被引量 : 0次 | 上传用户:redredlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1.研究背景随着计算机技术与测量理论的不断发展,建立大型的语言测试题库并基于题库实现计算机自适应语言测试(computerized adaptive language testing,简称CALT)是近年来国外语言测试研究的热点问题。计算机自适应测试兴起于八十年代中期,但直到八十年代后期才真正被运用到语言测试领域。相对于传统的纸笔语言测试(paper-and-pencil language testing,简称PPLT)或普通的计算机辅助语言测试(computer-based language testing,简称CBLT), CALT有以下优势:1)测试信度与效率高;2)即时反馈效果良好;3)施考安全性好;4)测试的个性化程度高;等等。CALT的主要理论依据为项目反应理论(item response theory,简称IRT)。IRT是一组用于阐述考生答题行为与潜在能力之间关系的数学模型,其最大优点是项目数据与样本数据之间具有独立性,即项目参数估计不受其所施测的样本影响,样本能力估计不受其所施测的项目影响。因此,即使考生在测试过程中所得到的考题不一样,仍可以对考生能力进行估计并直接比较,这一优点极大地促进了CALT的设计与应用。依据计分模式,IRT可以分为二元计分IRT模型和多元计分IRT模型。二元计分IRT模型中,考生在题目上的得分只有0分、1分两种可能性,二元计分IRT模型包括单参数模型(one-parameter logistic model,简称IPLM)、双参数模型(two-parameter logistic model,简称2PLM)、三参数模型(three-parameter logistic model,简称3PLM)。多元计分IRT模型中,考生在题目山的得分有0分、1分、2分等多种可能性,常见的多元计分IRT模型有等级反应模型(graded response model,简称GRM)、分部评分模型(partial credit model,简称PCM)、广义分部评分模型(generalized partial credit model,简称GPCM)。IRT的基本假设为单维性与局部独立性,单维性指同一份考卷中的所有题目测量同一种能力。尽管长期以来,语言测试领域在语言能力的单维性问题上争论不休,但目前较为公认的一种观点是单维性是一个度的问题而非存在与否的问题。局部独立性指考生在各道题目上的答对概率相互独立,即考生的潜在能力是影响作答的唯一因素,当排除这个因素的影响后,考生在不同题目上的作答行为之间不存在任何关系。但是在大规模英语测试中,局部独立性这一假设往往会被违反,因为常见的题型是几道选择题基于同一篇章。在局部独立性假设违反的情况下,采用标准的一元计分IRT模型进行项目分析不仅会导致模型与数据的不拟合,而且会导致对项目区分度的估值过高,从而导致对测试信息量,即对测量精确度的估值过高。解决上述问题的一个有效方法是采用多元计分IRT模型。该方法把基于同一篇章的若干题目看成一个整体,即把考生在同一篇章所有题目上得分相加,作为一个多元计分题目,运用多元计分IRT模型进行参数估计。除IRT以外,CALT的成功与否主要取决于其四个重要组成部分的功能,即题库、项目选择、能力估计、终止原则。目前,国内关于CALT方面的研究基本停留在文献综述或简要介绍上,只有极少数研究进行了CALT模型设计的实证研究。国外关于CALT方面的实证研究相对较多,主要集中在对CALT模型设计的探讨以及效度验证。在设计方面,绝大多数CALT涉及词汇、语法以及阅读测试,仅有少数CALT涉及听力测试,因为听力测试中的语音成分使得CALT开发过程更为复杂。此外,国内外CALT设计方面的研究均主要集中介绍题库建设,因为高质量的大型题库是CALT得以成功运行的前提条件。尽管如此,以往研究在CALT题库建设方面仍存在以下四个方面的局限性:1)大多数题库仅采用独立项目,即每道题目基于一个独立的篇章,而在实际的语言测试中,尤其是听力与阅读测试中,使用最为广泛的题型是若干道题目基于同一篇章;2)虽然大部分题库包括词汇测试、语法测试、阅读测试等多个组成成分,但是很少有研究关注题库中的不同组成成分在多大程度上影响整个题库的单维性;3)在模型选择方面,以往的题库建设过分依赖Rasch模型,极少有研究通过模型数据拟合程度从一系列理论上可行的模型中选择最佳模型对项目进行参数估计;4)尽管项目功能差异(differential item functioning,简称DIF)的存在对CALT的效度以及公平性构成极大威胁,但是迄今为止尚未有关于在题库建设中探讨DIF项目的甄别以及剔除问题的研究。在效度验证方面,以往研究关注的三个主要问题是CALT与PPLT的等效性、计算机熟悉度的影响、CALT构念在男女考生群体中的一致性。关于CALT与PPLT的等效性,研究者争论的核心问题在于是否需要保证CALT与PPLT的等效性。大多数研究者认为,无论CALT跟PPLT同时存在,还是CALT取代PPLT,测试开发者和使用者都应保证这两种测试形式之间的对等关系。但目前较新的一个观点是,在这个全球化时代,人们很多交流都通过计算机进行,因此语言能力的定义应考虑个体的语言能力与基于计算机的交际语境的相互作用。也就是说,保证CALT与PPLT内等效性不仅不切实际,而且没有必要,因为这两种测试形式本身就测量了两种不同的构念。然而,必须指出的是,测试开发者需保证CALT与CBLT的等效性,不能因为CALT内自适应性而使CALT所测量的构念与CBLT有所不同。尽管如此,目前的研究均主要致力于探讨CALT与PPLT、CBLT与PPLT的等效性,尚未有研究探讨CALT与CBLT的等效性。关于计算机熟悉度的影响,大部分研究探讨了计算机熟悉度在多大程度上影响考生在CBLT中的表现,研究结果不尽一致。目前仍未有研究直接探讨计算机熟悉度对考生在CALT中成绩的影响,尽管计算机热悉度在这两种测试形式中对考生的影响方式可能并不一样。同时,就研究方法而言,以往的研究均局限于基本统计方法(如T检验、方差分析、回归分析等),目前仍无研究采用过高级统计方法(如结构方程模型等)来探讨计算机熟悉度究竟在多大程度上影响CALT所考查的构念,从而影响考生在CALT中的表现。关于CALT构念在男女考生群体中的一致性,其核心问题是计算机熟悉度对男女考生在CALT中表现的影响是否有差异。因为以往研究表明男性的计算机水平高于女性,所以计算机热悉度可能会在不同程度上影响男女群组在CALT中的表现,从而影响测试的效度及公平性。但是,目前仍未有研究探讨CALT中所涉及的计算机熟悉度、以及所考查的语言能力的因子结构是否在男女群组中存在一致性。2.研究目的基于以上文献综述,本研究的目的有两个:1)建立一个用于计算机自适应测试的听力和阅读题库;2)设计一个计算机自适应语言测试,并采用“评估使用论据”(assessment use argument,简称AUA)对该测试进行效度验证3.研究问题针对第一个研究目的,本研究旨在解决以下四个问题:1)听力与阅读部分的项目在多大程度上满足局部独立性假设?2)听力与阅读部分的项目在多大程度上满足单维性假设?3)GRM与GPCM这两种多元计分IRT模型中,哪种更适合基于篇章的项目分析?4)听力与阅读部分的项目在多大程度上存在性别上的项目功能差异?针对第二个研究目的,本研究旨在解决以下三个问题:1)CALT与CBLT在多大程度上考查相同的语言能力?2)计算机熟悉度在多大程度上影响CALT所考查的构念?3)CALT的因子结构关系在多大程度上保持男女考生群组间的一致性?4.实证研究4.1研究一研究一的主要目的是建立一个用于计算机自适应测试的大型题库,该题库包括以下四种题型:听力短对话理解、听力长对话理解、听力短文理解、阅读篇章理解。在内容方面,该题库涵盖社会、文化、教育、经济、科普等多个方面。4.1.1研究方法采用的主要研究方法是对所有进入题库的题目进行预测,预测通过与目标群体能力相当的样本参加CBLT方式进行。为了使题库中的题目参数在同一量表上,本研究采用锚题方式使CBLT中不同考卷上的题目实现等值。为了缩小题目参数估计误差,每道项目的预测样本为550左右。所有项目进行预测后,采用以下分析方法对数据进行处理:1)使用IRTPR02.1软件对项目局部独立性假设进行检验;2)使用SPSS18.0软件对数据进行探索性因子分析,并用AMOS7.0软件进行验证性因子分析,以检验单维性假设是否成立;3)使用IRTPRO2.1软件中的2PLM对二元计分项目进行分析,用GRM以及GPCM对多元计分项目进行分析,再根据模型与整体数据以及项日层次数据拟合度情况选择最佳模型对项目进行参数估计;4)使用IRTPRO2.1软件以及SIBTEST软件对项目进行性别DIF检验,然后对存在性别DIF的项目进行内容分析,以确定该项目是否需要从题库中剔除。4.1.2研究结果与讨论研究发现:1)基于同一篇章的若干项目间存在局部独立性假设违反的问题,因此基于同一篇:章的若干项目应当被看成一个整体,作为一个多元计分项目。2)探索性因子分析对项目的单维性假设无法给出确切的结论,因为不同的评判标准得出了相反的结论;验证性因子分析表明二阶因子模型显著优于一阶因子模型,即不仅存在单独的听力技能与阅读技能因子,并且这两个因子同时受更高阶的语言能力因子影响。该结果一方面证实了单维性假设的成立,另一方面表明阅读题目与听力题目各自具有独特性,因此采用IRT分析时不应把两部分项目混在一起,而应分开进行。3)针对听力部分与阅读部分,GPCM的模型与整体数据以及项目层次数据拟合度均优于GRM,因此GPCM被确定为多元计分项目参数估计的最终分析模型。同时,基于理论与实际考虑,2PLM被用于二元计分项目参数估计。个别与模型无法拟合的项目以及参数不达标的项目被删除。4)两种DIF甄别力方法检验出的DIF项目并不一致,并且内容分析也无法对一些项目产生DIF的原因进行明确解释。为了尽量降低DIF的存在对CALT测试公平性的影响,所有可能存在DIF的项目均被删除,被剔除项目占总题量的12.5%左右。4.1.3研究总结通过上述预测以及项目估计方法,最终有258个带有项目难度、项目分度、话题类别等参数的项目进入题库。根据题型类别,这258个项目被分置于四个子题库中。除听力短对话子题库外,其他三个题库的总信息量在不同能力水平上的分布较为平坦,说明该题库在不同能力水平上的测量精确度较为相似。本研究所设计的CALT为常模参照性测试,需要尽可能保证各个能力水平上的测量精确度,因此本题库符合实际要求。4.2研究二研究二的主要目的是设计一个计算机自适应语言测试,并采用“评估使用论据”(AUA)对该测试进行效度验证。本研究采用AUA作为理论框架的理据是:相对于其他理论框架,AUA通过具体的主张和理由把语言测试各个重要属性有机地联系起来,提供了一个更为系统的理论框架及操作步骤。4.2.1研究方法本研究分三个步骤:CALT设计、CALT模拟、CALT运行与效度验证,其中第三个步骤是本研究的核心部分。针对CALT设计,本研究在测试顺序、项目选择、能力估计、终止原则方面采取以下方法:1)测试按照听力短对话理解、听力长对话理解、听力短文理解、阅读篇章理解的顺序进行。听力短对话理解以中等难度的项目作为测试起点,听力短对话理解中考生的能力估计值直接用于听力长对话理解、听力短文理解中;但是,听力部分的能力估计值不用于阅读理解部分,即阅读篇章理解测试中所有考生的初始能力值均假定为0。2)项目选择采用最大信息量选择法(maximum information,简称MI),并兼用内容平衡、曝光控制等措施。3)能力估计采用贝氏期望后验法(expected a posteriori,简称EAP)。4)终止原则同时采用标准误差控制原则和总题量控制原则。针对CALT模拟,本研究采用Firestar与R软件,对四个子题库分别按照上述设计方法进行四次CALT模拟运行。结果表明按照以上方式设置的CALT只需使用CBLT中50%左右的题量,就可以使听力部分与阅读部分的测量信度均达到0.8以上。针对CALT运行与效度验证,416名曾参加过CBLT测试的非英语专业学生参加了CALT测试,其中,289名考生不仅完整完成了一份关于计算机熟悉度的问卷调查,而且详细给出了其最近一次CET-4成绩(2011年12月)。对以上数据采用的数据分析方法包括:1)使用SPSS18.0进行配对T检验,用AMOS7.0软件进行验证性因子分析,探讨CALT与CBLT所考查的构念是否一致;2)使用AMOS7.0软件对计算机熟悉度、CET-4成绩、CALT成绩进行结构方程模型建模,探讨CALT所考查的构念与计算机熟悉度以及常规纸笔测试中所测量的构念之间的关系;3)使用AMOS7.0软件对以上模型进行多群组结构方程模型分析,探讨CALT的因子结构关系在男女考生群组中是否一致。4.2.2研究结果与讨论研究发现:1)配对T检验结果表明尽管考生在CALT中的成绩略低于在CBLT中的成绩,但正如采访结果所示,这可归因于CALI设计中仍存在的一些小问题,如,CALT界面中“下一题”与“提交”按钮处于同一位置,考生由于紧张的原因连续点击鼠标三次导致漏答,使得测试得分偏低。验证性因子分析结果表明CALT与CBLT考查的构念相同,说明CALT的自适应性并没有改变其所考查的构念,初步证明对CALT所考查的能力的解释是有意义的;2)计算机熟悉度与CALT所考查的构念没有显著关系,但是考生在常规纸笔测试中成绩能在很大程度上预测考生在CALT中的表现,说明对CALT所考查的能力的解释是有意义的,并具有概推性;3)CALT的因子结构关系在男女考生群组中具有一致性,说明对CALT所考查的能力的解释不存在性别差异,即测试对男女生群组而言是公平的。4.2.3研究总结以上研究结果表明对CALT中所考查的能力的解释是有意义的,并具有概推性和公正性。换言之,本研究结果证明了CALT的效度。但是,需要指出的是,本研究对CALT效度的验证仍停留在分数解释阶段,对CALT效度的更全面验证应当基于根据CALT分数所做的决定的公平性、以及CALT的使用对教学以及整个社会所带来的影响。5.结论本研究不仅设计了一个采用多种题型、涉及听力与阅读测试的CALT,填补了国内语言测试领域的一个研究空白,而且在国内外语言测试领域中首次尝试对CALT进行较为系统的效度验证。在计算机技术已经给语言测试带来真正变革的今天,本研究在理论以及实践上均具有重要意义。在理论层面,本研究的效度验证不再局限于CALT与PPLT之间的等效性,而是倡导更好地理解CALT所考查的构念,理解计算机熟悉度以及语言能力与CALT中所考查的构念之间的关系。其次,本研究尝试在测试分数解释方面使用AUA框架,有利于促进基于论据的效度验证方法在语言测试领域得到更广泛的应用。在实践层面,本研究介绍了CALT开发过程中的具体步骤,指出了以往研究在CALT题库建设方面存在的不足,有利于拓展CALT开发方面的知识,并能给考虑开发CALT系统的机构提供实证依据。其次,本研究针对计算机熟悉度对考生在CALT中表现的影响的探讨有助于CALT开发者与使用者更积极主动地预测CALT实施中可能遇到的问题,对这些问题作更好地理解与诠释,并更恰当地使用CALT的测试结果。6.局限性与未来研究方向诚然,本研究也存在一定的局限性,未来研究可从以下几个方面着手:1)本研究尽管通过把基于同一篇章的若干个二元计分项目合并为一个多元计分项目,采用多元计分IRT模型解决了局部独立性假设违反的问题,但是此方法的一大缺陷是项目层次信息的丢失,未来研究可以考虑采用多维IRT模型,如双因素模型(bi-factor model)、题组反应理论模型(testlet response theory model),进行项目参数估计,从而保证项目层次信息的完整性;2)本研究尽管对听力部分与阅读部分的题目单独进行IRT分析,肯定了听力技能与阅读技能各自的独特性,但是单独分析使同时参与分析的项目数量减少,在一定程度上加大了参数估计误差,未来研究可以考虑采用双阶全信息项目因子分析模型(two-tier full-information item factor analysis model)进行参数估计,真正实现多维CALT的创建;3)本研究仅从性别角度考查了CALT因子结构的一致性,未来研究可从考生专业、生源地等角度着手;4)本研究主要基于定量分析论证CALT的效度,未来研究可采用定性分析方法研究考生在CALT中的认知过程,从而更好地探讨CALT的效度问题:5)本研究设计的CALT仅包括听力和阅读成分,而未涉及写作与口语考试,随着自动评分技术的发展,未来研究可尝试设计更全面的考查语言能力的CALT。
其他文献
例1,女,52岁,以“左上肢不自主舞动2个月”为主诉于2009年11月23日入院。患者入院前2个月无明显诱因出现左上肢不自主舞动,当时症状轻未在意,后症状渐加重,情绪波动时尤其明显,给予
慢性肾衰(CRF)时,促红细胞生成素(EPO)分泌不足,红细胞生成减少、破坏增多,加之出血等易致肾性贫血,且多与肾功能损害的程度成正比[1,2]。此种肾性贫血,一般抗贫血疗法难以取效,使用EP
《韩诗外传》是西汉初年韩婴所著的一部书,它由360条轶事、道德说教、伦理规范以及实际忠告等不同内容杂编而成,一般每条都以一句恰当的《诗经》引文作结论,以支持政事或论辩
近年来,我国工业化发展速度日益提升,虽然在一定程度上促进了经济的发展,但是也使我国面临着资源紧缺以及环境恶化等不良现象,为了缓解该现状,我国加大了对节能减排与循环经济发展
目的探索影响原发性肝癌手术预后的因素。方法回顾性分析 1994~ 1998年我院收治 189例经病理证实原发性肝癌切除术 ,随访 5年以上 ,选择 2 2项临床、病理特征及治疗等指标分析
行政执法责任制作为一种新型的行政法律制度,一经推行即受到社会的广泛关注。但是,作为一项制度创新和一个崭新的课题,行政执法责任制在理论上还处于起步阶段,尽管学术界、理
<正>乳腺癌是女性常见的恶性肿瘤之一,WHO估计每年超过100万的女性被诊断为乳腺癌,约40万人会死于此病[1]。近年来,乳腺癌的发病率上升,而在一些发达国家乳腺癌病死率却逐渐
本文基于我国金融体系存款现状以及利率市场化所处的阶段,对2014年11月30日发布的《存款保险条例(征求意见稿)》的主要内容进行了梳理与分析;然后结合国外存款保险制度的特点
目的:探讨社区慢性病患者知识服务过程中护士角色功能及影响因素,以期为发展社区卫生服务、促进社区护理人才培养、提高慢性病患者健康素养提供理论依据。方法:采用定性研究方法
房地产业作为我国的支柱产业,其发展直接关系到国家经济的整体发展。特别是在工业化中后期和城市化快速发展阶段,经济发展离不开房地产业的支撑。同时,房地产市场是个异常复