等级反应多水平侧面模型及其在主观题评分中的应用

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:kmffly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国教育事业的发展,国家对“素质教育”的重视程度日益增加,主观题在教育考试中的使用率也不断增加,因为其可以很好地考察学生的分析、综合、归纳以及问题解决等能力。然而,在对主观题进行分数的评定时,由于没有标准答案,故需要额外的评分人员对其进行评分,而在评分过程中,受各种因素的影响,评分者容易出现评分者效应(rater effects),最终影响评分结果的准确性,不利于测验的发展。基于此,研究者提出并发展了一系列的评分者效应的检测方法,如概化理论(Generalizability Theory, GT)、多面Rasch模型(Many-Facets Rasch Moel, MFRM),以及多水平随机系数模型(Multilevel random coefficient model, MRCM)等。然而,这些方法依然还存在一些局限性,无法处理评分过程中遇到的所有问题。本研究拟将项目反应模型、多水平模型和评分者模型三者相结全,提出并探讨一种既可以处理继时性的加工任务,又可以考察评分者影响因素,同时还可以准确地检测出各种评分者效应的评分者模型,该模型被命名为等级反应多水平侧面模型(Grade Response Multilevel Facets Model, GR-MLFM)。该模型属于非线性混合效应模型范畴,包含了三个主要部分:随机成分(the random component)、链接函数(the link function)以及非线性成分(the nonlinear component)。为验证模型的合理性,本研究在MCMC方法基础上通过两个模拟研究和一个实证研究对其进行论证。模拟研究一主要论证的是等级反应多水平侧面模型(GR-MLFM)在不包含任何预测变量(即零模型)的情况下模型的返真性。50次重复试验的结果表明,GR-MLFM的参数估计值与真值之间的差异非常小,其在偏差值(Bias)、绝对百分比偏差(percentage bias, PB)和误差均方根(RMSE)等3个指标上的值均很小说明模型的拟合情况较为理想。与此同时,研究还比较了GR-MLFM和Wang和Liu(2007)等提出的广义多水平侧面模型(G-MLFM)对数据的拟合情况,结果发现G-MLFM所得到的大部分参数估计值与真值有较大差异,并且其估计结果在4个指标上的值相对较大,可见,G-MLFM的估计结果较差,说明G-MLFM并不适用于继时性加工任务情境下的评分者效应分析,而GR-MLFM则比较适合于该任务情境,该结果论证了Tutz(1990)和Andrich (1995)两位学者的观点。模拟研究二论证了GR-MLFM在包含被试和评分者预测变量(即完整模型)的条件下,模型的拟合情况。实验结果表明,除了评分者3的固定效应值(γ30)与真值间的差异在.1以上外,其它的参数估计值与真值间的差异均在.1以内;同时,模型的各估计值在3个指标上的值也相对较小,除γ30外,其PB值为10.101%,达到了‘显著性偏差’的标准(PB≥10%)。可见,模型可以较准确且稳定地拟合数据,具有较好的适用性。研究三为实证研究,其目的在于进一步验证模型的实际评分任务中的功效。研究通过4个主观题考察学生的数学问题解决能力。研究还将学生的性别和评分者的责任心、情绪稳定性、自信心、以及评分经验等4个变量纳入到模型中,以考察评分任务中的评分者效应。结果发现,所有20位评分员中,只有一个评分员存在显著的宽松效应,其他评分员的宽严度效应不显著。此外,学生的性别对学生的数学问题解决能力没有预测作用,且不同性别学生的数学问题解决能力没有差异。而评分者的2个预测变量则对其评分结果有显著的预测作用,其中,责任心与评分者的严厉效应成正比;自信心则与评分者的宽松效应成正比;而情绪稳定性和评分经验两个变量的预测作用不显著。
其他文献
情绪面孔搜索不对称是指对由多个面孔组成的搜索序列进行搜索时,对一种表情(如愉悦)的搜索效率明显高于对另外一种表情(如愤怒)的搜索效率。Hansen和Hansen (1988)率先对该问
白山抽水蓄能电站下库进/出水口石方开挖,因施工所处环境的特殊,不同的施工部位,采取了相应的爆破控制技术,取得了良好的爆破效果,保证了计划工期的顺利完成.
本文以美国全纳教师培养模式作为研究对象,阐述了全纳教育以及全纳教师培养在美国的发展背景和发展历程,介绍并详细分析了当前美国三种主要的全纳教师培养模式,并试图在此基
目前,我国已经全面启动全国中小学教师教育技术能力建设项目,如此浩大的培训工程,如果采用传统的集中面授培训方式,不但人力、物力、财力的消耗将会非常巨大,而且难以按时完
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
“中国文化失语”现象已受到外语界关注多年,然而却至今未能得到有效的改善。随着中国文化走向世界,大批留学生来华学习,中国文化在英语教学中的重要性正日益彰显。在大学英
学位
组织趋同是指某一类组织在一定的时期内,在组织目标、组织结构、组织行为等方面模仿、接近以及同形的发展趋势。组织趋同现象广泛地存在于企业、政府、学校、医院等社会组织的
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
研究目的:在2008年的北京奥运会上,中国男篮在北京五棵松篮球馆,为观众上演了六场精彩的比赛。最后取得2胜4负的战绩,没能实现历史的突破,再次止步八强。纵观前八强的队伍,其