论文部分内容阅读
标准设定是当代心理与教育测量学界中被公认为相当重要、且涉及面很广、争议很大、十分棘手的一个议题,涉及到测量学家、各学科领域专家、社会公众、相关决策者等方方面面的利益。由此,关于标准设定的研究层出不穷,而对于标准设定方法的比较研究更是其中的一大热点和难点。 本论文全面阐述了标准设定的定义、历史、模型和方法、国内外关于标准设定方法的比较研究等,并运用项目反应理论对1999年6月大学英语四级考试公开卷A卷部分试题进行了分析。在此基础上提出了两大研究目的。首要目的是从不同的心理计量学方面(与外在效标的一致性程度、项目反应理论的测量精度、概化理论的评分者一致性信度)比较三种标准设定方法:Nedelsky方法、Angoff方法和聚类分析结合受试者中心模型方法的优劣。另一目的是尝试使用判别分析之判别函数获得的权重结合传统的标准设定方法辅助成套测验的标准设定。为此,抽取了1649名受试者在1999年6月大学英语四级考试A卷部分试题的得分作为样本,并选取了5位熟悉大学英语四级教学大纲以及受试者基本知识和技能水平的专家参与标准设定。得到的主要研究结果如下: 1)1999年6月大学英语四级考试公开卷A卷是由较高质量的项目构成的,采用3PL拟合数据效果较好,大多数项目都具有较好的鉴别力和中等的难度水平。因此在其基础上进行标准设定,是完全可行并具有一定说服力的。 2)三种不同的标准设定方法产生的测验分界分数之间具有一定的差异。Nedelsky方法产生的测验分界分数显著高于Angoff方法产生的测验分界分数。 3)三种标准设定方法在三个不同的心理计量学方面各具优势:在与外在效标的一致性程度方面,聚类分析结合边缘组方法最好,Angoff方法次之,Nedelsky方法最差;在项目反应理论的测量精度方面,三种方法基本相同,Nedelsky方法最好,聚类分析结合边缘组方法最差;在概化理论的评分者一致性信度方面,Nedelsky方法和Angoff方法基本相同,Nedelsky方法略高。 4)在CET-4情境下,运用Nedelsky方法和Angoff方法,14位或以上专家人数为推荐的最佳专家人数方案。 5)通过判别分析得到CET-4三部分的权重中,听力理解部分被赋予的权重最大、阅读理解部分次之、词汇与语法结构部分最小。 6)加权情境下使用标准设定方法得到的测验分界分数较没有加权情境下得到的测验分界分数在与外在效标的一致性程度和评分者一致性信度两方面都有所提高,Angoff方法较Nedelsky方法提高得尤为明显。