论文部分内容阅读
大尺度教育评估为了扩大能力考查范围或课程覆盖面,同时缩短被试的测试时间,一般都采用矩阵取样技术作为数据收集的方式。由于评估的目的是向政府和公众报告各地区的学生学业状况,因此更加关注总体统计量:如何使总体参数的估计偏差尽可能小就成了重要的研究内容。在矩阵取样的测量情景下,传统的能力估计方法已经不能满足要求,于是研究者们提出了似真值(Plausible value,PV)的概念体系。
本研究采用模拟和实证研究考察了在不完全矩阵取样的设计中,基于IRT的PV与传统的学生能力估计方法MLE、WLE和EAP对总体平均值和标准差的估计精确性和稳健性,力求为我国的大尺度教育评估的实践提供支持。
研究一通过模拟产生了56个二分项目,考察了题目数和被试量不同的矩阵取样情况下,4种方法估计总体平均值和标准差时的精确性和稳健性。缧表明,PV对总体参数的估计最为精确和稳健;EAP倾向于低估,MLE和WLE倾向于高估,且精确性和稳健性远远不如PV,即使在总被试量最大和每个题本中的项目数最多的有利条件下仍然如此。同时,总被试量对于估计结果的影响很小,而每个题本中的项目数影响较大。
研究二采用某次大规模测试中国地区的科学数据,考察了在实际矩阵取样设计的情境下,4种估计方法在总体层面、性别层面(男/女)和地区层面(农村/城市)对学生能力的平均值和标准差的估计。结果表明,实证研究中4种方法对总体参数的估计趋势与模拟研究一致。