论文部分内容阅读
该研究以表现性评估这种测量形式为媒介,综合使用概化理论和项目反应理论两大现代测量理论,对评委、维度、评定等级和考生等表现性评估涉及的各个环节从群体和个体两个层次进行细致考察,探索山了对表现性评估数据进行分析、提高其测量精度的一个全新的分析框架。研究数据为某省级国家公务员面试中,12名评委对两组共66名考生在仪表举止、口头表达、应变能力、综合分析、逻辑思维5个维度上,使用10点量表进行的评定。研究主要结果如下:
该研究提出并验证了两种评委误差的存在:评委之间在宽严程度上的差异和评委自身的一致性问题。该研究在使用项目反应理论的多面Rasch模型估计了每个评委的宽严程度之后,重点考察了每个评委自身一致性问题,详细分析了不同的评委跨考生、跨维度、跨性别以及跨时间的一致性,对每个评委的评分行为进行诊断。这种进入到评委个体层次的分忻突破了经典测量理论停留于对评委整体分析的局限,为评委的培训和评委库的建立提供了现代测量学的新方法。
对面试维度的研究表明:维度难度的跨评委一致性对测评信度造成了影响。多面Rasch模型对各维度的分析发现,评委对仪表举止维度的不一致理解使得接受不同评委面试的考生在该维度上的得分很人程度上受到机遇因素的影响。此外,该研究突破了传统分析局限于维度权重的设定,对维度权重的实现进行了考察。概化分析发现,各维度在全域分中的方差贡献比例与决策机关的权重设定存在一定差异。综合分忻和口头表达维度好的考生在面试中得到了过多的优势。对各维度概化系数的分析表明,口头表达维度(0.86)的测量精度最高,而仪表举止维度(0.65)的误差未能得到有效控制。
对面试各维度使用的评定等级进行多面Rasch模型的分析结果表明:各个维度统一使用的10点量表低端等级形同虚设,且假定为等距的各等级之间实际并不等距。此外,综合分析维度和口头表达维度个别等级上山现了考生高能力反而对应低分数的现象。研究建议:调整量表低端等级对应的考生能力水平,适当减少等级个数,明确不同等级所针对的考生表现上的差异,培训时加强评委对等级差异的理解。
对考生主效应的概化分析表明测量目标并未很好实现,误差控制的有效性有待提高。鉴于此,该研究采用多面Rasch模型对考生的原始分数进行校正,剔除了由于评委等误差对于原始分数的影响,得到考生独立于测量具体情境因素的能力估计值,为提高面试决策的科学性和公平性提供了新的解决方法。对国家公务员结构化面试的整体研究表明,面试的概化系数为0.87。公务员面试的高风险性要求决策机关对测评过程中的误差做进一步的控制。
概化理论的优势在于群体定位、关注实验设计的改进,而项目反应理论的优势在于个体定位、通过校正各种因素对测验结果的影响,准确估计考生真实能力水平,也为测验的进一步改进提供了大量诊断性信息。该研究创造性地将两个理论相结合,使之服务于提高表现性评估信度这一共同目标。