论文部分内容阅读
经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)是心理测量学中的两大理论。基于经典测量理论(CTT)发展出信度、效度来衡量测验的质量。信度衡量了测验的稳定性、一致性程度。效度即测验的有效性,它衡量了测验能够测出所要测量特质的程度。但是在经典测量理论的框架下并没有发展用于测量信息量的方法。项目反应理论(IRT)从微观的角度可以对测验中项目的各类参数进行估计,并采用Fisher信息量来衡量项目信息量。在较为常用的模型中,单参数模型(1PL)、两参数模型(2PL)和三参数模型(3PL)都可以在参数估计后,基于各模型下不同的参数获得每一项目的信息量,并通过累加获得测验信息量。此外通过信度和标准误可以估算测验获得多少信息量是可以接受的。这是经典测量理论(CTT)框架下所不具备的优势。但项目反应理论(IRT)很难被普通一线教师所掌握和应用。因此,Mariam和Varazdat在2015年提出用香农熵来衡量测验的信息量,在项目难度(这里的难度采用经典测量理论的定义,下同)达到0.5时,项目达到理论上的最大信息量。但没有给出更多的具体的应用方式。而在实际考试实践中,我们对于不同的项目期望它具有不同的难度,这就首先导致实际上我们并不期望每一个项目都能达到理论最大的信息量,其次这些期望的信息没有被充分的利用起来用于评估我们的测验。此时可以根据实际需要获得一个期望信息量。而根据实际施测情况可以获得实际信息量。通过两者相比可以得到相比于期望信息量获得的实际信息百分比,衡量测试的质量,也可以对两者进行差异检验,检验测验是否严重偏离命题初衷。据此,我们可以在经典测量理论(CTT)框架下衡量信息量以及判断一次考试是否或在多少程度上实现了测验的初衷。由于经典测量理论(CTT)相较于项目反应理论(IRT)更易于理解和应用,所以即使在教师的日常教学考试活动中,也可以通过简单的计算实现应用。