论文部分内容阅读
计算机自适应测验(Computer Adaptive Test,CAT)是一种新型的测验方式,是现代教育与心理测量理论在实践中的重要应用形式。与纸笔测验相比,计算机自适应测验具有许多优势,并逐渐在实践中得到了广泛的应用。在美国许多重要的考试都是使用CAT形式。然而CAT考试也遇到一些实践问题和技术难题,其中包括被试能力估计值被低估的问题。一些研究者分析CAT考试事件和参加CAT考试的考生体验,认为如果被试CAT初始阶段连续答对几道试题,即使测验后期阶段答错了若干道难度较大的试题,仍然可能得到较高的分数;如果被试在初始阶段连续答错几道试题,则即使后期阶段被试做得很好,也难以得到高分。本文将这种现象命名为“CAT初始阶段作答情况影响最终成绩”的CAT考试现象。许多研究者对此考试现象进行了研究探讨,包括使用a分层方法,或者使用四参数模型方法进行分析与解决。 本文从被试作答现象和数学模型的角度来分析CAT考试现象,认为:(1)被试作答的猜测现象和睡眠现象会影响被试能力估计;(2)在IRT数学模型中,c参数反映了猜测现象,γ参数反映了睡眠现象,当被试在CAT作答存在猜测现象和睡眠现象时,c、γ参数将会对被试的能力估计产生一定的影响。本文将从纸笔测验和CAT模拟测验两个方面进行研究,以验证以上假设。 (一)在纸笔测验时,在Samejima等级反应模型(本文简写为GRM原模型)下设计了被试作答的猜测现象和睡眠现象,使用MULTILOG软件估计被试能力估计值。由结果发现:被试作答的猜测现象会导致被试能力高估现象,被试作答的睡眠现象会导致被试能力低估现象。本文使用两种方法来纠正被试能力高估和低估现象:(1)被试作答权重调整方法;(2)增加c、γ参数形成Samejima等级反应模型新模型(GRM新模型)的方法。结果发现这两种方法都能有效纠正在GRM原模型下的被试能力高估和低估现象。 (二)在CAT模拟时,本文设计了被是在CAT初始阶段三种作答的测验情境(前三题正常作答,答对前三题,答错前三题)。在两级记分两参数模型、GRM原模型下,(1)被试在CAT初始阶段前三题正常作答(不存在猜测现象和睡眠现象时),各个能力水平被试的能力估计值都能较好回到被试能力真值,模拟返真性能良好;(2)被试在CAT初始阶段答对前三题时,高能力被试模拟返真性能良好,低能力被试的模拟返真性能较差,存在着被试能力高估现象。(3)被试在CAT初始阶段答错前三题时,低能力被试模拟返真性能良好,高能力被试的模拟返真性能较差,存在着被试能力低估现象。因此,在CAT初始阶段答对前三题时,低能力被试存在的能力高估现象;答错前三题时,高能力被试存在着能力低估现象,这可以较好地解释了”CAT初始阶段作答情况影响最终成绩”的CAT考试现象。 本文在两级记分两参数模型的基础上,(1)增加c参数后,在三参数模型c型下进行CAT模拟,发现在三参数模型c型下在可以较好地纠正低能力被试答对前三题时出现的被试能力高估现象,而高能力被试答错前三题出现的被试能力低估现象依然存在;(2)增加γ参数,在三参数模型γ型下进行CAT模拟,发现在三参数模型γ型下可以较好地纠正高能力被试答错前三题时出现的被试能力低估现象,而低能力被试答对前三题出现的被试能力高估现象依然存在;(3)同时增加c、γ参数,在四参数模型下进行CAT模拟,发现在四参数模型下既可以较好地纠正高能力被试答错前三题时出现的被试能力低估现象,也可以较好地纠正低能力被试答对前三题时出现的被试能力高估现象。在GRM原模型的基础上增加c、γ参数,在GRM新模型下进行CAT模拟,发现在GRM新模型下可以较好地纠正被试在CAT初始阶段答对前三题所产生的被试能力高估现象、答错前三题所带来的被试能力低估现象。本文在CAT模拟情境下增加c、γ参数到IRT数学模型中可以纠正被试能力低估和高估现象的方法,为解决CAT考试现象,特别是被试能力低估现象提供了一种较好地研究思路与解决方案。 (三)本文在CAT模拟时使用了四种能力估计方法,并分析了被试能力估计方法对被试模拟返真性能的影响。(1)在CAT模拟时,当被试在CAT初始阶段前三题正常作答时,MLE能力估计方法在各个能力水平上都具有较好地模拟返真性能,模拟返真性能优于EAPE能力估计方法的三种变式方法;而对于三种EAPE能力估计方法,只有当被试能力真值在0附近时模拟返真性能良好;而在能力区间的高端和低端,EAPE方法的模拟返真性能较差,而且在CAT整个测试过程中,EAPE-N(0,0.5)方法的模拟返真性能要稍微劣于EAPE-N(0,1)方法,EAPE-N(0,1)方法要差于EAPE-N(0,2)方法。(2)当被高能力被试答错前三题,和低能力被试答对前三题时,在CAT测试的题量较少时的被试能力估计值,三种EAPE方法的被试的模拟返真性能都优于MLE方法,而且EAPE-N(0,0.5)方法的模拟返真性能要优于EAPE-N(0,1),EAPE-N(0,1)方法优于EAPE-N(0,2)。然而,在CAT测试的后期阶段,测试题量较多时,MLE方法的模拟返真性能优于EAPE方法,而且,EAPE-N(0,2)方法的模拟返真性能要优于EAPE-N(0,1),EAPE-N(0,1)方法优于EAPE-N(0,0.5)。 (四)在各个数学模型,以及在三种CAT初始作答的测验情境下进行的CAT模拟,都存在同样的规律,即随着CAT测试的题量增大,被试模拟返真性能越好。