论文部分内容阅读
随着我国教育事业的发展,国家对“素质教育”的重视程度日益增加,主观题在教育考试中的使用率也不断增加,因为其可以很好地考察学生的分析、综合、归纳以及问题解决等能力。然而,在对主观题进行分数的评定时,由于没有标准答案,故需要额外的评分人员对其进行评分,而在评分过程中,受各种因素的影响,评分者容易出现评分者效应(rater effects),最终影响评分结果的准确性,不利于测验的发展。基于此,研究者提出并发展了一系列的评分者效应的检测方法,如概化理论(Generalizability Theory, GT)、多面Rasch模型(Many-Facets Rasch Moel, MFRM),以及多水平随机系数模型(Multilevel random coefficient model, MRCM)等。然而,这些方法依然还存在一些局限性,无法处理评分过程中遇到的所有问题。本研究拟将项目反应模型、多水平模型和评分者模型三者相结全,提出并探讨一种既可以处理继时性的加工任务,又可以考察评分者影响因素,同时还可以准确地检测出各种评分者效应的评分者模型,该模型被命名为等级反应多水平侧面模型(Grade Response Multilevel Facets Model, GR-MLFM)。该模型属于非线性混合效应模型范畴,包含了三个主要部分:随机成分(the random component)、链接函数(the link function)以及非线性成分(the nonlinear component)。为验证模型的合理性,本研究在MCMC方法基础上通过两个模拟研究和一个实证研究对其进行论证。模拟研究一主要论证的是等级反应多水平侧面模型(GR-MLFM)在不包含任何预测变量(即零模型)的情况下模型的返真性。50次重复试验的结果表明,GR-MLFM的参数估计值与真值之间的差异非常小,其在偏差值(Bias)、绝对百分比偏差(percentage bias, PB)和误差均方根(RMSE)等3个指标上的值均很小说明模型的拟合情况较为理想。与此同时,研究还比较了GR-MLFM和Wang和Liu(2007)等提出的广义多水平侧面模型(G-MLFM)对数据的拟合情况,结果发现G-MLFM所得到的大部分参数估计值与真值有较大差异,并且其估计结果在4个指标上的值相对较大,可见,G-MLFM的估计结果较差,说明G-MLFM并不适用于继时性加工任务情境下的评分者效应分析,而GR-MLFM则比较适合于该任务情境,该结果论证了Tutz(1990)和Andrich (1995)两位学者的观点。模拟研究二论证了GR-MLFM在包含被试和评分者预测变量(即完整模型)的条件下,模型的拟合情况。实验结果表明,除了评分者3的固定效应值(γ30)与真值间的差异在.1以上外,其它的参数估计值与真值间的差异均在.1以内;同时,模型的各估计值在3个指标上的值也相对较小,除γ30外,其PB值为10.101%,达到了‘显著性偏差’的标准(PB≥10%)。可见,模型可以较准确且稳定地拟合数据,具有较好的适用性。研究三为实证研究,其目的在于进一步验证模型的实际评分任务中的功效。研究通过4个主观题考察学生的数学问题解决能力。研究还将学生的性别和评分者的责任心、情绪稳定性、自信心、以及评分经验等4个变量纳入到模型中,以考察评分任务中的评分者效应。结果发现,所有20位评分员中,只有一个评分员存在显著的宽松效应,其他评分员的宽严度效应不显著。此外,学生的性别对学生的数学问题解决能力没有预测作用,且不同性别学生的数学问题解决能力没有差异。而评分者的2个预测变量则对其评分结果有显著的预测作用,其中,责任心与评分者的严厉效应成正比;自信心则与评分者的宽松效应成正比;而情绪稳定性和评分经验两个变量的预测作用不显著。