论文部分内容阅读
测验等值是通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换,进而使得这些不同测验形式的测验分数之间具有可比性。当代许多大规模的考试都是采用同一测验的不同形式,那么我们如何对使用不同试卷的考生的分数进行比较,以及在教育测量上,随着学生年级的上升,如何刻画出学生本身纵向的能力发展状况和趋势,如何比较不同年龄段或者年级段或者年度之间的成绩等问题的解决都依赖于等值技术,那么就必然涉及到该选择哪种等值方式,因此等值方式之间的比较显得尤为重要。在项目反应理论框架下,等值有两种方式,一种称为分离估计(separatecalibration),即,首先分别估计各个测验的项目参数,由于在IRT模型中,量尺的位置的不确定性,不同测验上项目参数之间是线性相关的,那么就要进行线性转换以至于所有的项目参数都在相同的尺度上,主要转换方式有:均值均值法,均值标准差法,Haebara法,Stocking-Lord法。另一种称为同时估计,即项目参数一次性用软件估计出来的方法。在以往的研究中,关于同时估计与分离估计的研究有如下的不足和问题:1,关于同时估计与分离估计比较的指标不统一,指标的不同很可能会影响研究的结果。2,研究中仅仅从误差值的大小来判断孰优孰劣,这并不能从统计上说明哪种方法的显著优势。针对以上不足,在本研究中,1,采用绝对偏差和偏差来分别考察研究中的随机误差和系统误差,以保证结果的精确性。2,使用统计检验的办法来考察同时估计与分离估计在统计上是否有显著性差异。根据本研究的结果,我们得出,1,在a参数上同时估计的等值效果要显著优于分离估计的等值效果,在b参数上,从偏差的角度看,HA法的等值效果要显著优于其他4种,即分离估计显著优于同时估计,从绝对偏差的角度看,同时估计、SL和HA法的等值效果并无显著性差异。2,样本量越大,等值的效果越好。