【摘 要】
:
计算机化自适应测验(Computerized Adaptive Testing,CAT)是一种量体裁衣式的新型测验模式.CAT实施的前提是有一个题目参数已经准确标定的题库,而且题库的维护与管理对于CAT的连续使用尤为重要(Chang&Lu,2010).比如CAT实施一段时间后,题库中某些题目可能会因为过度曝光、过时等原因不再适合被继续使用(Wainer&Mislevy, 1990),因此需要开发新
【机 构】
:
北京师范大学数学科学学院 北京师范大学中国基础教育质量监测协同创新中心
论文部分内容阅读
计算机化自适应测验(Computerized Adaptive Testing,CAT)是一种量体裁衣式的新型测验模式.CAT实施的前提是有一个题目参数已经准确标定的题库,而且题库的维护与管理对于CAT的连续使用尤为重要(Chang&Lu,2010).比如CAT实施一段时间后,题库中某些题目可能会因为过度曝光、过时等原因不再适合被继续使用(Wainer&Mislevy, 1990),因此需要开发新题替代题库中不适合的旧题,而且在使用新题之前需要对其进行准确标定.相对于传统的锚题设计的离线标定方法,在线标定技术由于具有诸多优点而被广泛应用于新题的标定中(Chen, Xin,Wang,&Chang, 2012).
其他文献
本研究主要通过界定Q矩阵理论,回答DINA模型是否使用Q矩阵理论问题,并给出一些经验供认知诊断分析者借鉴.Tatsuoka (2009,p.6)认为DINA模型没有使用Q矩阵理论.是否真是如此,要回答这个问题,需要清晰界定Q矩阵理论的外延.Q矩阵理论是“确定不可观察的知识状态并用可观察项目反应模式描述它们”(Tatsuoka,1995).Tatsuoka (2009 p.83)提出Q矩阵是联系不可
Q矩阵是进行认知诊断的基础,正确的Q矩阵是进行被试诊断分类的关键,Q矩阵的界定的复杂性限制了认知诊断在实际中的应用。现有Q矩阵估计和修正方法均是基于复杂的统计测量学知识,需要进行大量的运算。本研究受HCI(Hierarchy Consistency Index)指标的启发,开发ICC (Item Consistency Criterion)指标,提出一种基于得分矩阵的Q矩阵估计和修正方法,通过比较
认知诊断以微观认知角度对被试做出准确评估与反馈的优势在心理与教育测量领域中展现出巨大的发展潜力。但是,要利用这种优势就必须确保测验Q矩阵的合理性。以往研究构建测验Q矩阵主要依赖专家的经验,其缺点是专家的水平及意见统一与否会严重影响Q矩阵的正确性,而错误界定的Q矩阵会对模型参数估计和被试分类准确性带来严重影响。为克服该困难,国内外研究者相继开发出基于被试作答反应数据的Q矩阵估计方法,以数据驱动视角为
主观性试题因其具有的诸多优势常被用来测评考生的语言能力。复述是口语考试中的一种常见题型,它主要考查的是考生获取关键信息、语言表达和逻辑连贯等方面的能力。复述是MHK四级口语考试的第一种题型,主要用来考查少数民族大学毕业生的语言表达能力。目前,MHK四级复述题采用“2+1”的模式,已实现网上评阅,评分的质量得到了基本保障。但因复试题评阅的时间偏长,评分效率较低,加上评分员的疲劳效应等因素的影响,评分
以结构方程模型为代表的潜变量模型在心理学和社会科学各领域得到了广泛的应用。在传统的结构方程模型中,研究的样本通常假设来自同质性群体,然而这一假设在很多情况下并不成立。不同质群体的结构方程建模可以使用多组分析或多指标多因模型。不过这种处理的前提是存在明确的分组变量,只是更多时候,很难找到客观的外显分组变量,最常见的例子如心理疾病的分类诊断标准。在统计学上,为了处理潜在分组问题,研究者提出了多种统计模
评价测评工具结果的有效性,不能单从结构效度进行,还应评价该工具测得的分数与效标间是否具有某种实证关系,即效标关联效度;操作上,常通过目标结构与效标的相关系数进行评价。学界近年对共同方法变异的关注始于大量研究者发现不同心理变量间由于采用了相同的测量方法,其协方差中会包含共同方法造成的变异,得到有偏的相关系数,研究者可能得出不当乃至错误的结论。
主观性试题因其具有较高的效度而广泛用于口语测试当中。目前,口语测试已经实现了网上评阅,评分的效率和质量得到了明显提高。尽管如此,由于题型的自身局限,评分误差大等问题依然没有得到有效解决。随着计算机技术以及测量技术的迅猛发展,实现MHK三级口语开放性试题的计算机自动评分成为了可能。其一,小型化、高性能、高速的服务器以及云计算、人工智能技术的运用为实现自动评阅奠定了坚实的基础;其二,科大讯飞等公司在模
随着互联网的普及和信息化的迅猛发展,当代社会形成了由文字、图像、声音等多种符号互相组合构成的多模态现象,图像以其“一图胜千言”的优势很好地适应了信息爆炸时代人们快速阅读的需求。本文从图像时代的产生背景展开,一方面,以结构主义语言学和认知语言学理论为基础,深入分析图像、文字、语言和人类思维的关系,提出图像和文字一样,作为一种符号和人类的思维密切相关,这种“图像思维”已成为当代人类语言能力的表现之一;
在省级监测中,如果测试工具对某些团体有利而对另一些团体不利的话,测试工具就缺乏公平性,群体之间的差异比较也就无从谈起。因此,有必要对测试工具进行公平性检测。题目功能差异(differential item functioning,以下简称DIF)从测试工具的最小单位一题目水平上来探讨测试的公平性问题,通过科学、有效的方法检测出测试工具中每一个可能对目标群体的受测者产生不公平对待的题目,从而确保测试