含题组测验的IRT等值问题研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:asa333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机化自适应测验都具有重要的意义。随着考试研究的深入,题组题型越来越多地出现在各类考试当中,例如阅读理解、数学、地图填图等测验。含题组的测验等值是我们必须面对的问题。用项目反应理论(Item Response Theory,IRT)模型进行测验等值需要满足很强的统计假设——局部独立性(LI)假设。然而,先前的研究表明,在包含题组的测试当中往往存在局部依赖,很可能违背LI假设。所以,采用标准的IRT模型对有题组的测验做等值,因忽略题组的局部相依性可能导致等值结果的失真。为解决这个问题,我们采用一种基于题组的模型——两参数题组模型(2Parameters Testlets Model,2PTM),它由IRT两参数逻辑斯蒂克模型(2 ParametersLogistic Model,2PLM)加入与每个题组相关的随机影响参数扩展而来的。这一模型考虑了铆题组中题目的局部依赖。本文给出了利用IRT特征曲线法求解等值系数的方法和具体步骤。以等值系数估计值的误差大小作为衡量标准,以Wilcoxon符号秩检验为依据,进行了大量的Monte Carlo模拟实验。实验分别从项目参数随机误差的大小,被试人数,题组相依性程度等方面考察对含题组的测验等值的效果,将2PTM与标准的IRT的2PLM进行比较,其中2PLM并没有考虑题组内部的依赖关系。实验结果表明,考虑了局部相依性的题组模型2PTM绝大部分情况下都比2PLM等值的误差小而且有显著性差异,更加适用于题组测验的等值。另外,对6种不同等值准则用2PTM等值的情况也做了相应的比较。结果表明,一般来讲,等值系数A取值在0.5~0.9之间SLcrit表现更好,1.0~1.4之间SQRcrit表现突出,1.5~2.0之间Hcrit表现较好。随参数估计精度的提高,SLcrit和SQRcrit的表现更加突出,胜出的范围也更大。题组相依程度逐渐加强,SQRcrit和Hcrit胜出的情况也增多。LCerit、Wcrit、SREcrit占优的情况不多,胜出的范围也没有规律。
其他文献
同一场景的两幅或多幅图像的匹配是计算机视觉中的一个基本问题,也是三维重构中的一个关键步骤。目前三维重构中的匹配方法在匹配效率和匹配性能方面存在很大的不足,所以对此种
在计算机图形系统中,三维物体通常用多边形网格,尤其是三角面片组成的网格来表示。为了满足日益增长的图形真实感的需要,模型和几何场景变得高度细节化。尽管图形绘制系统的性能
随着社交网络的快速发展,越来越多的社交用户倾向于在社交网站上使用不同媒体形式的内容(如文本、图像、视频等)发表观点和分享经历等。这些用户生成内容通常含有丰富的主观情感
人才派遣是指根据企业需求,人才派遣公司招募录用合适的人员,派遣到企业工作的人才服务方式。随着人员流动的大大加速,公司工作人员的更换频率加大,人才派遣公司在人才派遣管理方
随着嵌入式技术的发展,越来越多的嵌入式产品进入了我们的生活,比如手机、PDA、MP4和机顶盒等,使得嵌入式系统的开发受到广泛关注,并已成为信息产业中最重要的组成部分。嵌入
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,网络系统面临着越来越多攻击和入侵威胁。入侵检测是继防火墙、数据加密等传统安全保护措施后的又一种新
设计是人们在认识世界的基础上改造世界的活动。随着人类社会进步和科学技术的发展,人们对产品的要求越来越高,要提高产品的功能,自然要求设计方法和手段的创新。载货汽车产业随
IPv4存在地址空间严重不足、对移动性的支持不好等缺陷。而IPv6成为下一代互联网的核心协议已是一个不争的事实。作为IPv6协议重要组成部分的移动IPv6协议,它能够为用户提供大
烟支计数是中小型卷烟厂生产车间必须完成的一道工序。利用图像处理技术对烟支进行计数,是一种可选的方案。先二值化,则信息损失严重;直接基于彩色图像对烟支进行识别计数,虽
随着计算机运算速度的提高和计算机网络的发展,基于离散对数问题和大整数因子分解问题的数字签名算法越来越不能满足信息安全的需要。为了满足信息安全的要求,安全性依赖于椭圆