混合题型的IRT等值问题研究

来源 :江苏教育学院学报(自然科学版) | 被引量 : 0次 | 上传用户:gaochao321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义。在IRT框架下,常用的项目反应模型有0-1评分的Logistic模型和多级评分的等级反应模型(Graded Response Model,GRM)或拓广的分部评分模型(Generalized Partial Credit Model,GPCM)。随着教育测验评价形式的不断丰富,越来越多的试卷不仅有0-1评分题,又有多级评分题,我们称这种试卷为混合题型试卷,简称为混合题型(Multiple Item Type),我国也常常使用这种题型进行测试,例如医生资格考试。以往国内对混合题型的测验等值采用的方法是将Logistic模型看成是GRM或GPCM的特例。为确定起见,本文假设多级评分项目适合GRM。由于GRM中不含有猜测度,所以当0-1评分项目存在猜测时,这种处理方式就忽略了项目的猜测因素。为了解决这一问题,本文将三参数的逻辑斯蒂克模型和等级反应模型进行扩展得到混合模型,此模型解决了0-1评分项目猜测度被忽略的问题,并针对此模型开发了相应的等值程序。另外,为了检验某次测验0-1评分项目存在猜测,而人为将其忽略所带来的误差大小。本文给出了利用IRT特征曲线法求解等值系数的方法和具体步骤,以等值系数估计值的误差大小作为衡量标准,进行了大量的Monte Carlo模拟实验,使用相同的模拟数据将混合模型与GRM进行比较,其中GRM是忽略了0-1评分项目猜测度的。实验结果表明,若某测验中0-1评分项目存在猜测而等值时忽略这一事实误用GRM,在绝大部分情况下都比混合模型等值的误差大而且有显著性差异,并且等值的误差会随着猜测度的的增大而增大。最后,考虑到多级评分项目同样会存在猜测,本文还对IRT新模型—三参数等级反应模型进行了等值研究。分别用5种不同的等值准则考察三参数等级反应模型的有效性和适应性。结果表明,当等值系数A取值在0.5~1.4之间SLcrit表现更好,1.5~2.0之间Hcrit表现稍好,SQRcrit、Wcrit、SREcrit占优的情况不多,胜出的范围也没有规律。
其他文献
闲暇生活质量是农村教师生活质量的重要指标,对其专业发展有深远影响。目前农村教师的闲暇生活状况总体不太乐观,表现为闲暇认识不到位,缺乏系统规划,闲暇时间不足,闲暇内容
目的 报道中西医结合诊治半月板退变。方法 采用中西医药以及功能锻炼治疗,严重者使用关节镜进行清理。结果 有5 0例病人经过2~5年的随访,其中31例功能良好;17例轻度疼痛对
本文基于理论分析基础上提出我国城市化水平、贸易自由化对经济增长的驱动机制,运用协整检验、格兰杰因果关系检验以及脉冲响应函数等计量方法,利用我国1978-2011年期间时间
介绍了橡胶增塑剂A的生产新工艺——熔融合成法,论述了工艺过程、工艺条件。与复分解法、催化合成法相比较,可以提高产品质量、降低成本,几乎没有废水产生,达到了“零”排放
目的了解出院精神障碍患者电话回访工作中发现的问题,为有效的开展电话回访提供改进方向,以提高院外延续护理工作质量。方法随机抽取两个病区1 756例出院精神障碍患者电话回
准军事化管理是规范管理,比一般的管理要求更严格,内容更规范,效果更好,标准更高。近几年来,用人单位在用工过程中越来越看重学生的思想品德,社会和家长对学校的期望却越来越
后现代主义文学是20世纪中后期众多反传统的文学思潮与派别的总和。西方与俄罗斯的后现代主义文学是其在不同地域的两个代表。西方后现代主义文学的思想基础是建立在对现代主
<正>读完这组诗我非常高兴,久久沉静不下来。我认为这是一组具有独到的感觉、神秘的意象、别致的格式的诗歌,是一组思想深刻、情感深厚、艺术性很高的诗歌,因此,我很乐意推荐
据国内权威人力资源网站调查,因为员工流失导致企选人、用人成本支出将是原支出的200%。过高的员工流失率导致企业项目、生产、工程或服务的影响,失去了扩展的机会。