论文部分内容阅读
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机化自适应测验都具有重要的意义。随着考试研究的深入,题组题型越来越多地出现在各类考试当中,例如阅读理解、数学、地图填图等测验。含题组的测验等值是我们必须面对的问题。用项目反应理论(Item Response Theory,IRT)模型进行测验等值需要满足很强的统计假设——局部独立性(LI)假设。然而,先前的研究表明,在包含题组的测试当中往往存在局部依赖,很可能违背LI假设。所以,采用标准的IRT模型对有题组的测验做等值,因忽略题组的局部相依性可能导致等值结果的失真。为解决这个问题,我们采用一种基于题组的模型——两参数题组模型(2Parameters Testlets Model,2PTM),它由IRT两参数逻辑斯蒂克模型(2 ParametersLogistic Model,2PLM)加入与每个题组相关的随机影响参数扩展而来的。这一模型考虑了铆题组中题目的局部依赖。本文给出了利用IRT特征曲线法求解等值系数的方法和具体步骤。以等值系数估计值的误差大小作为衡量标准,以Wilcoxon符号秩检验为依据,进行了大量的Monte Carlo模拟实验。实验分别从项目参数随机误差的大小,被试人数,题组相依性程度等方面考察对含题组的测验等值的效果,将2PTM与标准的IRT的2PLM进行比较,其中2PLM并没有考虑题组内部的依赖关系。实验结果表明,考虑了局部相依性的题组模型2PTM绝大部分情况下都比2PLM等值的误差小而且有显著性差异,更加适用于题组测验的等值。另外,对6种不同等值准则用2PTM等值的情况也做了相应的比较。结果表明,一般来讲,等值系数A取值在0.5~0.9之间SLcrit表现更好,1.0~1.4之间SQRcrit表现突出,1.5~2.0之间Hcrit表现较好。随参数估计精度的提高,SLcrit和SQRcrit的表现更加突出,胜出的范围也更大。题组相依程度逐渐加强,SQRcrit和Hcrit胜出的情况也增多。LCerit、Wcrit、SREcrit占优的情况不多,胜出的范围也没有规律。