论文部分内容阅读
标准参照测验的一个重要功能是将考生进行分类,判断考生是否达到了某一个标准或处于某个水平。决策一致性指考生在两次平行测验中被一致归类的程度,是衡量标准参照测验质量的重要指标。由于考生在两次测验上的表现难以获得,研究者基于测量模型,提出了数十种通过单次施测估计决策一致性指标的方法。为了检验新提出的基于项目反应理论(IRT)模型的估计方法是否优于传统的基于经典测量理论(CTT)模型的方法,本研究采用模拟数据和实证数据,比较了基于IRT模型的P方法及D方法与基于CTT模型的LL方法和复合多项模型方法。
在模拟研究中,通过模拟生成了三种测验长度(20+2,40+3,60+5)的复杂计分测验,分界分数设定为单分界分数(35%,60%,85%)或三分界分数(三个单分界分数同时应用),在12种测验情境中分别用四种方法估计测验的决策一致性,并以偏差和均方根误差(RMSE)值作为衡量其估计准确性的指标。在实证研究中,采用某次全国性小学数学水平考试的数据,对四种方法模型与数据的拟合程度和估计值的大小进行了比较。结果发现,基于IRT模型的方法能够得到决策一致性指标更准确的估计值,但估计值的标准差较大。此外,测验长度、分界分数个数和分界分数位置也对估计结果产生了影响。测验长度越长,决策一致性的估计值越大,估计的准确性越高;分界分数个数增加,决策一致性的估计值则降低;当分界分数靠近考生分数分布的平均数时,决策一致性的估计值变小,估计的准确性也降低。相比基于CTT模型的方法,基于IRT模型的方法估计决策一致性的准确性受测验情境的影响较小。此外,CTT模型和IRT模型都能较好的拟合实际数据,CTT模型对于实证数据的拟合更好,而基于IRT模型的方法能够获得更高的决策一致性估计值。