IRT模型中c、γ参数对被试能力高估和低估现象的纠正

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:zhaojingda08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机自适应测验(Computer Adaptive Test,CAT)是一种新型的测验方式,是现代教育与心理测量理论在实践中的重要应用形式。与纸笔测验相比,计算机自适应测验具有许多优势,并逐渐在实践中得到了广泛的应用。在美国许多重要的考试都是使用CAT形式。然而CAT考试也遇到一些实践问题和技术难题,其中包括被试能力估计值被低估的问题。一些研究者分析CAT考试事件和参加CAT考试的考生体验,认为如果被试CAT初始阶段连续答对几道试题,即使测验后期阶段答错了若干道难度较大的试题,仍然可能得到较高的分数;如果被试在初始阶段连续答错几道试题,则即使后期阶段被试做得很好,也难以得到高分。本文将这种现象命名为“CAT初始阶段作答情况影响最终成绩”的CAT考试现象。许多研究者对此考试现象进行了研究探讨,包括使用a分层方法,或者使用四参数模型方法进行分析与解决。  本文从被试作答现象和数学模型的角度来分析CAT考试现象,认为:(1)被试作答的猜测现象和睡眠现象会影响被试能力估计;(2)在IRT数学模型中,c参数反映了猜测现象,γ参数反映了睡眠现象,当被试在CAT作答存在猜测现象和睡眠现象时,c、γ参数将会对被试的能力估计产生一定的影响。本文将从纸笔测验和CAT模拟测验两个方面进行研究,以验证以上假设。  (一)在纸笔测验时,在Samejima等级反应模型(本文简写为GRM原模型)下设计了被试作答的猜测现象和睡眠现象,使用MULTILOG软件估计被试能力估计值。由结果发现:被试作答的猜测现象会导致被试能力高估现象,被试作答的睡眠现象会导致被试能力低估现象。本文使用两种方法来纠正被试能力高估和低估现象:(1)被试作答权重调整方法;(2)增加c、γ参数形成Samejima等级反应模型新模型(GRM新模型)的方法。结果发现这两种方法都能有效纠正在GRM原模型下的被试能力高估和低估现象。  (二)在CAT模拟时,本文设计了被是在CAT初始阶段三种作答的测验情境(前三题正常作答,答对前三题,答错前三题)。在两级记分两参数模型、GRM原模型下,(1)被试在CAT初始阶段前三题正常作答(不存在猜测现象和睡眠现象时),各个能力水平被试的能力估计值都能较好回到被试能力真值,模拟返真性能良好;(2)被试在CAT初始阶段答对前三题时,高能力被试模拟返真性能良好,低能力被试的模拟返真性能较差,存在着被试能力高估现象。(3)被试在CAT初始阶段答错前三题时,低能力被试模拟返真性能良好,高能力被试的模拟返真性能较差,存在着被试能力低估现象。因此,在CAT初始阶段答对前三题时,低能力被试存在的能力高估现象;答错前三题时,高能力被试存在着能力低估现象,这可以较好地解释了”CAT初始阶段作答情况影响最终成绩”的CAT考试现象。  本文在两级记分两参数模型的基础上,(1)增加c参数后,在三参数模型c型下进行CAT模拟,发现在三参数模型c型下在可以较好地纠正低能力被试答对前三题时出现的被试能力高估现象,而高能力被试答错前三题出现的被试能力低估现象依然存在;(2)增加γ参数,在三参数模型γ型下进行CAT模拟,发现在三参数模型γ型下可以较好地纠正高能力被试答错前三题时出现的被试能力低估现象,而低能力被试答对前三题出现的被试能力高估现象依然存在;(3)同时增加c、γ参数,在四参数模型下进行CAT模拟,发现在四参数模型下既可以较好地纠正高能力被试答错前三题时出现的被试能力低估现象,也可以较好地纠正低能力被试答对前三题时出现的被试能力高估现象。在GRM原模型的基础上增加c、γ参数,在GRM新模型下进行CAT模拟,发现在GRM新模型下可以较好地纠正被试在CAT初始阶段答对前三题所产生的被试能力高估现象、答错前三题所带来的被试能力低估现象。本文在CAT模拟情境下增加c、γ参数到IRT数学模型中可以纠正被试能力低估和高估现象的方法,为解决CAT考试现象,特别是被试能力低估现象提供了一种较好地研究思路与解决方案。  (三)本文在CAT模拟时使用了四种能力估计方法,并分析了被试能力估计方法对被试模拟返真性能的影响。(1)在CAT模拟时,当被试在CAT初始阶段前三题正常作答时,MLE能力估计方法在各个能力水平上都具有较好地模拟返真性能,模拟返真性能优于EAPE能力估计方法的三种变式方法;而对于三种EAPE能力估计方法,只有当被试能力真值在0附近时模拟返真性能良好;而在能力区间的高端和低端,EAPE方法的模拟返真性能较差,而且在CAT整个测试过程中,EAPE-N(0,0.5)方法的模拟返真性能要稍微劣于EAPE-N(0,1)方法,EAPE-N(0,1)方法要差于EAPE-N(0,2)方法。(2)当被高能力被试答错前三题,和低能力被试答对前三题时,在CAT测试的题量较少时的被试能力估计值,三种EAPE方法的被试的模拟返真性能都优于MLE方法,而且EAPE-N(0,0.5)方法的模拟返真性能要优于EAPE-N(0,1),EAPE-N(0,1)方法优于EAPE-N(0,2)。然而,在CAT测试的后期阶段,测试题量较多时,MLE方法的模拟返真性能优于EAPE方法,而且,EAPE-N(0,2)方法的模拟返真性能要优于EAPE-N(0,1),EAPE-N(0,1)方法优于EAPE-N(0,0.5)。  (四)在各个数学模型,以及在三种CAT初始作答的测验情境下进行的CAT模拟,都存在同样的规律,即随着CAT测试的题量增大,被试模拟返真性能越好。
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
故障现象:一辆2003年生产的宝来1.8L轿车,行驶里程7万km.据用户反映,该车每天早上刚起动时发动机运转不稳、抖动,但工作几分钟后就正常了,冬季白天在外面停放一段时间后也会
《英语课程标准》(2011年版)“教学建议”中指出:“应特别强调培养对英语的感知能力和良好的语言学习习惯。”“课标”第二部分“课程目标”中也多处涉及学生应养成的一些英
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
英朗是别克品牌战略布局的重要车型,这一代车型自2015年上市以来,以满足消费者的驾乘体验需求为己任,赢得了百万用户的认同,成为家庭轿车市场的佼佼者。如今,2018款别克新英朗则携全新驱动系统、全新造型设计、全新的互联体验,以及无忧用车服务,出现在人们面前,以“懂”你更多,来满足消费者好看、好开、好乘、好用、好养的“五好”体验。  首先,2018款别克新英朗在外观上也是大秀“时尚动感”。2018款新
期刊
基于隐马尔可夫模型的多频率线跟踪算法 ,能在很低的SNR环境下工作 ,但量化误差较大 ,和计算量大 .本文提出另一种选择量测向量和计算量测概率的方法 ,创造条件减小量化误差
随着终身学习理念的树立和学习型社会的兴起,人们越来越重视学习。在当今社会,随着网络的发展,信息技术、个人电脑和因特网已经成为人们生活、工作、学习的重要组成部分。E-lear
小学数学作为一门基础学科,是学生全面发展和终身学习的基础。数学具有乏味和枯燥的特性,学生不易接受,如果不及时巩固很容易学而忘之。孔子曾说过“学而时习之”,可见及时有效的练习和测试在数学学习中的重要性。  习题巩固需要结合小学生的年龄特征、认知特点和身心发展规律,这就要求小学数学习题及命题设计必须加强直观性和趣味性,学生只有喜欢才容易接受,才能有效提高小学数学学科的教育教学效果。  一、新课程背景下