论文部分内容阅读
随着标准参照测验的兴起,标准设定的作用日益突显。尽管标准设定的方法层出不穷,但几乎所有的方法都依赖于专家的主观判断。大量研究表明,不同的标准设定方法设定的分界分数不同,甚至同一批专家采用同一种方法重复设定的分界分数也不同;从而引发了学界对标准设定是否有效的不断质疑。鉴于此,本文基于国家执业医师资格考试综合笔试的实测数据,开展了两项客观化标准设定研究。
第一项是基于聚类分析的客观化标准设定研究。该研究基于6项执业医师资格考试数据,采用两步聚类法(Two Step Cluster, TSC)设定分界分数,并与Angoff法相比较,探讨了基于TSC的标准设定法(TSC-based Standard Setting,TSCSS)的可行性;与此同时,该研究还采用模拟实验法,探讨了被试团体测验得分的分布对TSCSS的影响。主要结论有:(1) TSCSS能够自动将被试分为两类,其设定的分界分数与Angoff法基本、甚至相当一致;这表明,采用TSCSS法设定我国执业医师资格考试综合笔试的分界分数是可行的;(2) TSCSS法受被试团体测验得分分布的影响:当测验得分接近正态分布时,分界分数接近测验得分的集中量数,与之对应的通过率接近50%;当测验得分为正偏态分布时,分界分数高于集中量数,与之对应的通过率低于50%;反之亦然。
第二项是基于项目反应理论(Item Response Theory,IRT)的客观化标准设定研究。该研究首先分析了Angoff法的概率判断和对错判断存在的不足、以及Angoff法与IRT的内在联系,提出了基于IRT的调和Angoff法(Moderated Angoffbased on Item Response Theory, MAIRT);然后采用Monte Carlo实验法、围绕MAIRT法的有效性递进地开展了三项模拟研究。主要结论有:(1)在理想状态下,MAIRT法对真分界分数的估计相当准确,且在概率判断阶段平均可节省40%的试题,从而初步验证了MAIRT法的有效性;(2)在误差状态下,MAIRT法的准确性较差,判断效率也有所下降。但通过采用较为灵活的调整策略,改进后的MAIRT法的估计准确性和判断效率都较未改进时有了显著提高,且接近理想状态下的实验结果。这说明MAIRT法在误差状态下仍有可能有效。