论文部分内容阅读
和以往的纸笔测验(Paper And Pencil Based Test,P&P)相比计算机化自适应测验(Computerized Adaptive Testing,CAT)根据被试的作答反应自适应地选择题目,CAT既减少了测验的长度,并且显著提高了测验的精度。认知诊断计算机化自适应测验(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)是认知诊断理论和计算机化自适应测验的理论相结合的产物,它不仅具有CAT的特点,同时还具有诊断的功能,CD-CAT旨在对个体的认知过程、加工技能或知识结构进行诊断,从而为后续的补救性教学提供有效的借鉴,它更强调考察被试内部的加工过程。然而,目前绝大多数CAT和CD-CAT不允许被试修改答案,研究者主要担心修改答案会降低它们的有效性。允许修改答案符合被试一贯的测验习惯,修改之后的分数更能反映被试真实的水平,从而能够进一步促进CAT和CD-CAT在实际中的应用。已有的研究主要从三个方面提出了可修改答案CAT的控制方法:一是测验设计;二是改进选题策略;三是建构模型。Han(2013)提出的题目口袋法(Item Pocket,IP)是目前具有较好应用前景的可修改答案的CAT(Reviewable CAT)控制方法,IP法的思路是计算机为被试提供了一种题目口袋选择,即允许被试作答过程中,随时可以把待修改的题目或者暂时想跳过的题目放入IP中,然后接着作答下一个题目,放入IP内的题目不参与当前能力估计。当IP容量已满后,被试需要替换一题才能再次放入。IP法的缺点是其容量不容易控制,容量过大将导致较大的估计误差。本文在IP方法的基础之上加以改进,提出了新计分的题目口袋法(Modified IP,MIP),即对放入IP内修改的题目重新计分。与IP法相比,Stocking(1997)的设计对修改行为有较多的限制,Stocking设计1允许考生在答完所有题目后,返回修改固定数量的题目,修改后的作答并没有体现在自适应选题中;Stocking设计2是允许被试修改单独限时题目单元内的答案。在测验过程中将题目按照先后顺序划分为固定长度的题目单元,题目单元长度根据实际需要而规定。被试可以在单元内对题目进行检查并修改,计算机根据被试当前单元的作答来选择下一个单元,提交答案后的单元不允许再次返回修改。与Stocking设计一相比,被试在Stocking设计二中对测验有更多的掌控,不管测验被分割为多少个小单元,被试还可以修改所有的题目,但设计一中只能修改固定数量的题目。另外设计二中被试修改单元内答案会影响下一个单元的选择,计算机会根据被试修改后的能力估计值选择下一个单元。而设计一中修改题目之后的能力估计值并没有体现在自适应选题上。从这点来看设计二要比设计一更符合CAT的规则。以上几种修改答案的设计方法在CAT的应用中各有优缺点(IP、MIP、Stocking设计1和Stocking设计2),CD-CAT是由CAT的进一步发展而来,但两者之间又有很大的区别,为了验证上述方法在可修改答案的CD-CAT(Reviewable Cognitive Diagnostic Computerized Adaptive Testing,RCD-CAT)的效果,模拟研究分别采用了DINA和R-RUM模型,假设被试知识状态和题库都服从均匀分布,模拟生成5000个被试,300容量的题库,知识状态的估计采用极大似然估计方法(Maximum Likelihood Estimation,MLE),属性考察个数分别是5个和7个,选题策略包括:Kullback Leibler(KL)、Posterior Weighted KL(PWKL)、Hybrid KL(HKL)和Modified Posterior-Weighted KL(MPWKL),测验长度分为10题和20题。通过通过蒙特卡洛模拟研究发现:第一,与传统不修改答案的CD-CAT相比,本文提到的RCD-CAT方法,可以在不损失诊断精度和题库曝光率的基础上,允许学生修改答案,这符合学生一般作答行为习惯,减少学生做答的负担及焦虑程度,更易被大众接受。第二,当研究采用了DINA模型的时候,MIP法和IP法的效果没有太大区别,结果表明MIP的效果依赖于被试的作答概率分布。第三,在所有的研究条件下,Stocking设计的模式判准率要高于其他三种方法,其中,Stocking设计2的模式判准率略微优于Stocking设计1,结果表明Stocking设计在RCD-CAT的应用中具有良好的前景。总之,RCD-CAT不仅符合被试一贯的测验习惯,并且通过修改答案有助于提高诊断的准确率,进一步而言本研究有助于进一步为RCD-CAT和RCAT的研究和实践应用提供理论和方法支持。