论文部分内容阅读
在第二个问题中,我们已经知道了什么是真分数理论,平时我们的考试就是以它为理论依据实施的。真分数理论有时也叫经典测量理论(Classical Test Theory,CTT),它有三个理论假设:第一,真分数具有不变性;第二,误差是完全随机的;第三,卷面分数是真分数与误差分数的和。其实,经典测量理论的内容并不只是前面我们所讲的这些,在这个框架下,它的内容可丰富呢。
问题3:你知道我们考试的信度是怎么回事吗?
在很多人的眼里,考试并不是问题,“不就是做题嘛”。但问题是,我们要利用考试考出来的成绩对考生进行评价,进而对学校、班级或其他团体等进行评价。如果是这样,我们就不得不提出这样一个问题了:“这次考试到底有多大可信性?”或者如此表述:“这次考试所得到的成绩能代表考生的真实水平吗?其可靠性达到了怎样的程度?”如果这次考试的可靠性不够高,那么用这样的考试成绩作为评价用的数据就有点儿“不靠谱”,我们不能让考生被“不靠谱”的数据“冤枉”。
还记得我们在上文中提到的“小学一年级学生两位数以内的加减法运算能力”测验吗?我们为了得到学生的真实能力水平,前后进行了60次同样内容的测验(题目不同)。这在经典测量理论(CTT)里叫做“平衡测验”,其目的是使我们所获得的考试成绩更可信、成绩更真实,进而保证我们的评价更可靠。然而,这只是理论上的做法,在现实中我们不可能做那么多次测验才进行评价,这样的代价实在太大了!哪怕就是平时的测验,做两次都很难,更不用说做那么多次同样内容的测验了。至于中高考,从来都是一次过。那么,我们有没有别的什么方法可以解决这个可信性、可靠性的问题呢?答案是肯定的。那些专门研究教育测量学的专家们已经为我们提供了各种各样的解决办法,比如采用相关法进行重测信度(Test-retest Re-liability)、复本信度(Equivalent-forms Re-liability)、分半信度(Split-half Reliability)的估计等。另外,克伦巴赫(Cronbach)α系数、荷伊特信度(Hoyt,1941)以及库德和理查逊(G.F.Kuder & M.W.Richardson,1937)提出的两个公式K-R20公式和K-R21公式等都是进行信度估计的重要方法。
什么是重测信度呢?所谓重测信度,又叫再测信度,就是把同一(群)考生、同一个测验在不同的时间里测量两次,然后计算这两次测验成绩的相关系数,这个系数就叫做重测信度。
什么是复本信度呢?复本信度就是以两个等值但题目不同的测验(复本,就是平时我们所说的备用卷;若相同的人用正卷和备用卷测验的结果一样,那么这两份试卷就是等值的)来考查同一个群体(考生),然后求得这批考生在这两次测验中所得分数的相关系数,这个相关系数就叫复本信度。
什么是分半信度呢?分半信度是指在测验后将测验试题分成相等的两组(两半),通常采用奇偶分组方法,即将测验题目按照题号的奇数和偶数分成两半,然后计算这两组题目得分之间的相关系数,这个系数就叫分半信度。
无论是重测信度、复本信度还是分半信度,这些名词听起来都是一些很专业的东西。不过,在科学很发达的今天,我们一般都能毫不费力地利用各种计算机软件将它们快速测算出来。
例如,我们利用IRT统计分析软件ConQuest version 2.0对2013年柳州市中考试卷的信度进行计算分析,得到各科的克伦巴赫(Cronbach)α系数:语文=0.90,数学=0.93,英语=0.93,物理=0.93,化学=0.93,思品=0.87,历史=0.92。
其实,求克伦巴赫(Cronbach)α系数还可以用SPSS软件来测算。为了计算2014年柳州市中考数学试卷的克伦巴赫(Cronbach)α系数,我们使用了这个SPSS软件,过程如下:
第一步:把每个学生每道题的得分输入或导入到SPSS软件中,如图1。
第二步:在SPSS菜单中选取“分析”→“度量”→“可靠性分析”,如图2。
第三步:在选取“可靠性分析”确定后出现如图3的选项窗口,这时把左边的各题变量都选放到右边的项目栏中,模型选项取“α”,如图3。
第四步:点击“统计量”按钮,出现如图4的窗口,钩选相应选项后点击“继续”。在回到上一窗口后点击“确定”即可。
第五步:在软件的查看器中就可以查看到“可靠性统计量”克伦巴赫(Cronbach)α系数了。如图5中的“可靠性统计量”,我们发现2014年柳州市中考数学的α系数,即信度为0.92。
现在,信度系数求出来了,可是,这个系数到底要多大才能说明这份试卷的测验结果具有足够的可靠性呢?我们可以参考下面这个表格来下结论:
信度高低与克伦巴赫
(Cronbach)α系数关系对照表
由此看来,2014年柳州市中考数学试卷的测试信度较高,这份试卷是十分可信的,用它来作测试,结果是十分可靠的,能够测出我们要考查的学生的真实双基水平。
解决了考试的信度问题,下面便是考试的“效度”问题了。
问题4:我们如何知道考试的结果是否有效、效度如何?
信度只是帮助我们解决了考试结果的可信程度的问题,却不能帮助我们解决考试结果是否有效、效度如何的问题。那什么是效度呢?考试的效度指的是考试结果的有效性程度,也就是已经测量得到的东西与我们想要测量的东西是否相符、符合的程度有多大。比如,我们本想通过对一篇短文的分析来了解学生对某种文体的理解和掌握水平,但是在命题时我们却问了大量有关作者生平、写作思想、人生态度、对短文所描述情境的感悟以及对字、词、句的分析等,很显然,这样的考试,其分数不能有效地反映出学生对某种文体的理解和掌握水平。又比如,我们为了考查七年级学生对正、负数的理解能力,于是,命制了下面这份测试题。 一、选择题(每小题8分,共32分)
1.有一组数据:-1,0,+,-1.732,-3.14,106,-。下列说法中,正确的选项是( )。
A.正数有1个 B.负数有2个
C.正数有3个 D.负数有4个
2.如果水位升高5m时水位变化记作+5m,那么水位下降3m时水位变化记作( )。
A.+3m B.+2m
C.-2m D.-3m
3.下列说法正确的是( )。
A.负数是小于0的数
B.不是正数的数一定是负数
C.正数是不小于0的数
D.不是负数的数一定是正数
4.向东行进-30米表示的意义是
( )。
A.向东行进30米
B.向东行进-30米
C.向西行进30米
D.向西行进-30米
二、填空题(每空8分,共48分)
5.甲、乙两人同时从A地出发,如果向南走48m,记作+48m,那么:
(1)A地的距离在数学上可标记为
。
(2)乙向北走32m,记为 。
(3)甲走了+28m,表示甲向 方向走了28m。
(4)此时此刻,甲乙两人的距离为
。
6.某种药品的说明书上标明保存温度是(20±2)℃,由此可知:
(1)这种药物保存温度不能高于
℃。
(2)这种药物保存温度范围只有
℃。
三、解答题(共20分)
7.2014年我国全年平均降水量比上年减少24mm,2013年比上年增长8mm,2012年比上一年减少20mm。用正数和负数表示这三年我国全年平均降水量比上年的增长量。
那么,这份试题能否测出七年级学生对正、负数的理解能力呢?如果能的话,它的有效程度怎样?要回答这样一个问题,测量学的专家们给出了三种方式的回答,提出了三种类别的效度:一是内容效度(Content Validity),指的是测验的试题对想要测验的内容的代表性程度;二是结构效度(Construct Validity),指的是测验结果与测验的理论假设之间的一致性程度;三是效标关联效度(Criterion-related Validity),又称实证效度,指的是测验的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。
在日常的教学中,我们的考试以检测知识为主,比较容易获得较高的内容效度,因此,我们对这一类测验也往往更加关注它们的内容效度。内容效度,在实际操作中有时也叫“知识覆盖面”。我们在命题时为了提高测验的内容效度,往往先罗列出考试范围内的所有内容,然后再尽可能多地对所罗列的内容设定相关的试题,具体操作步骤如下:第一,确定考试总体内容,并列出有关知识与技能的分类板块;第二,进一步细化考试内容,并根据其重要性确定各内容的加权比例,作出尽可能详细的描述;第三,确定每道题所测的知识与技能,将题目的分类归属与上述所列考试内容进行比较;第四,结合考试内容,计算试题所包含的考试内容比例、内容板块所占比例、分值所占内容量值比例,综合评估内容效度。以下是柳州市对2014年中考数学内容效度的评估:
《中考说明》所列知识点136个,考核了123个,占90.4%;出自课本的有103分,占到总分的85.8%;在各个板块内容赋分比例中,数与代数部分占56分,空间与图形部分占52分,统计与概率部分占12分,其赋分比例是14∶13∶3;如果按照学年内容比,则七年级24分,八年级48分,九年级48分,学年内容的比例是1∶2∶2。
通常,我们在命题前会预先公布该年度的笔试考试的内容范围,然后根据这一考试范围研制命题双向细目表,同时根据考试内容范围进行题目的命制,在命制完题目后,再对照双向细目表描述试题所包含的内容,最后计算试题所含内容占双向细目表中的考试范围内容比例。另外,我们还会根据实际授课的课时比例,统计试题分值的分布比例,以观察考试值分量是否合理。还有另一个也是非常重要的评价内容,那就是试题与学科课程板块分布是否合理。
对于中小学教师来说,我们能把握好内容效度也基本能满足平时对学生考试的要求了。
(责编 白聪敏)
问题3:你知道我们考试的信度是怎么回事吗?
在很多人的眼里,考试并不是问题,“不就是做题嘛”。但问题是,我们要利用考试考出来的成绩对考生进行评价,进而对学校、班级或其他团体等进行评价。如果是这样,我们就不得不提出这样一个问题了:“这次考试到底有多大可信性?”或者如此表述:“这次考试所得到的成绩能代表考生的真实水平吗?其可靠性达到了怎样的程度?”如果这次考试的可靠性不够高,那么用这样的考试成绩作为评价用的数据就有点儿“不靠谱”,我们不能让考生被“不靠谱”的数据“冤枉”。
还记得我们在上文中提到的“小学一年级学生两位数以内的加减法运算能力”测验吗?我们为了得到学生的真实能力水平,前后进行了60次同样内容的测验(题目不同)。这在经典测量理论(CTT)里叫做“平衡测验”,其目的是使我们所获得的考试成绩更可信、成绩更真实,进而保证我们的评价更可靠。然而,这只是理论上的做法,在现实中我们不可能做那么多次测验才进行评价,这样的代价实在太大了!哪怕就是平时的测验,做两次都很难,更不用说做那么多次同样内容的测验了。至于中高考,从来都是一次过。那么,我们有没有别的什么方法可以解决这个可信性、可靠性的问题呢?答案是肯定的。那些专门研究教育测量学的专家们已经为我们提供了各种各样的解决办法,比如采用相关法进行重测信度(Test-retest Re-liability)、复本信度(Equivalent-forms Re-liability)、分半信度(Split-half Reliability)的估计等。另外,克伦巴赫(Cronbach)α系数、荷伊特信度(Hoyt,1941)以及库德和理查逊(G.F.Kuder & M.W.Richardson,1937)提出的两个公式K-R20公式和K-R21公式等都是进行信度估计的重要方法。
什么是重测信度呢?所谓重测信度,又叫再测信度,就是把同一(群)考生、同一个测验在不同的时间里测量两次,然后计算这两次测验成绩的相关系数,这个系数就叫做重测信度。
什么是复本信度呢?复本信度就是以两个等值但题目不同的测验(复本,就是平时我们所说的备用卷;若相同的人用正卷和备用卷测验的结果一样,那么这两份试卷就是等值的)来考查同一个群体(考生),然后求得这批考生在这两次测验中所得分数的相关系数,这个相关系数就叫复本信度。
什么是分半信度呢?分半信度是指在测验后将测验试题分成相等的两组(两半),通常采用奇偶分组方法,即将测验题目按照题号的奇数和偶数分成两半,然后计算这两组题目得分之间的相关系数,这个系数就叫分半信度。
无论是重测信度、复本信度还是分半信度,这些名词听起来都是一些很专业的东西。不过,在科学很发达的今天,我们一般都能毫不费力地利用各种计算机软件将它们快速测算出来。
例如,我们利用IRT统计分析软件ConQuest version 2.0对2013年柳州市中考试卷的信度进行计算分析,得到各科的克伦巴赫(Cronbach)α系数:语文=0.90,数学=0.93,英语=0.93,物理=0.93,化学=0.93,思品=0.87,历史=0.92。
其实,求克伦巴赫(Cronbach)α系数还可以用SPSS软件来测算。为了计算2014年柳州市中考数学试卷的克伦巴赫(Cronbach)α系数,我们使用了这个SPSS软件,过程如下:
第一步:把每个学生每道题的得分输入或导入到SPSS软件中,如图1。
第二步:在SPSS菜单中选取“分析”→“度量”→“可靠性分析”,如图2。
第三步:在选取“可靠性分析”确定后出现如图3的选项窗口,这时把左边的各题变量都选放到右边的项目栏中,模型选项取“α”,如图3。
第四步:点击“统计量”按钮,出现如图4的窗口,钩选相应选项后点击“继续”。在回到上一窗口后点击“确定”即可。
第五步:在软件的查看器中就可以查看到“可靠性统计量”克伦巴赫(Cronbach)α系数了。如图5中的“可靠性统计量”,我们发现2014年柳州市中考数学的α系数,即信度为0.92。
现在,信度系数求出来了,可是,这个系数到底要多大才能说明这份试卷的测验结果具有足够的可靠性呢?我们可以参考下面这个表格来下结论:
信度高低与克伦巴赫
(Cronbach)α系数关系对照表
由此看来,2014年柳州市中考数学试卷的测试信度较高,这份试卷是十分可信的,用它来作测试,结果是十分可靠的,能够测出我们要考查的学生的真实双基水平。
解决了考试的信度问题,下面便是考试的“效度”问题了。
问题4:我们如何知道考试的结果是否有效、效度如何?
信度只是帮助我们解决了考试结果的可信程度的问题,却不能帮助我们解决考试结果是否有效、效度如何的问题。那什么是效度呢?考试的效度指的是考试结果的有效性程度,也就是已经测量得到的东西与我们想要测量的东西是否相符、符合的程度有多大。比如,我们本想通过对一篇短文的分析来了解学生对某种文体的理解和掌握水平,但是在命题时我们却问了大量有关作者生平、写作思想、人生态度、对短文所描述情境的感悟以及对字、词、句的分析等,很显然,这样的考试,其分数不能有效地反映出学生对某种文体的理解和掌握水平。又比如,我们为了考查七年级学生对正、负数的理解能力,于是,命制了下面这份测试题。 一、选择题(每小题8分,共32分)
1.有一组数据:-1,0,+,-1.732,-3.14,106,-。下列说法中,正确的选项是( )。
A.正数有1个 B.负数有2个
C.正数有3个 D.负数有4个
2.如果水位升高5m时水位变化记作+5m,那么水位下降3m时水位变化记作( )。
A.+3m B.+2m
C.-2m D.-3m
3.下列说法正确的是( )。
A.负数是小于0的数
B.不是正数的数一定是负数
C.正数是不小于0的数
D.不是负数的数一定是正数
4.向东行进-30米表示的意义是
( )。
A.向东行进30米
B.向东行进-30米
C.向西行进30米
D.向西行进-30米
二、填空题(每空8分,共48分)
5.甲、乙两人同时从A地出发,如果向南走48m,记作+48m,那么:
(1)A地的距离在数学上可标记为
。
(2)乙向北走32m,记为 。
(3)甲走了+28m,表示甲向 方向走了28m。
(4)此时此刻,甲乙两人的距离为
。
6.某种药品的说明书上标明保存温度是(20±2)℃,由此可知:
(1)这种药物保存温度不能高于
℃。
(2)这种药物保存温度范围只有
℃。
三、解答题(共20分)
7.2014年我国全年平均降水量比上年减少24mm,2013年比上年增长8mm,2012年比上一年减少20mm。用正数和负数表示这三年我国全年平均降水量比上年的增长量。
那么,这份试题能否测出七年级学生对正、负数的理解能力呢?如果能的话,它的有效程度怎样?要回答这样一个问题,测量学的专家们给出了三种方式的回答,提出了三种类别的效度:一是内容效度(Content Validity),指的是测验的试题对想要测验的内容的代表性程度;二是结构效度(Construct Validity),指的是测验结果与测验的理论假设之间的一致性程度;三是效标关联效度(Criterion-related Validity),又称实证效度,指的是测验的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。
在日常的教学中,我们的考试以检测知识为主,比较容易获得较高的内容效度,因此,我们对这一类测验也往往更加关注它们的内容效度。内容效度,在实际操作中有时也叫“知识覆盖面”。我们在命题时为了提高测验的内容效度,往往先罗列出考试范围内的所有内容,然后再尽可能多地对所罗列的内容设定相关的试题,具体操作步骤如下:第一,确定考试总体内容,并列出有关知识与技能的分类板块;第二,进一步细化考试内容,并根据其重要性确定各内容的加权比例,作出尽可能详细的描述;第三,确定每道题所测的知识与技能,将题目的分类归属与上述所列考试内容进行比较;第四,结合考试内容,计算试题所包含的考试内容比例、内容板块所占比例、分值所占内容量值比例,综合评估内容效度。以下是柳州市对2014年中考数学内容效度的评估:
《中考说明》所列知识点136个,考核了123个,占90.4%;出自课本的有103分,占到总分的85.8%;在各个板块内容赋分比例中,数与代数部分占56分,空间与图形部分占52分,统计与概率部分占12分,其赋分比例是14∶13∶3;如果按照学年内容比,则七年级24分,八年级48分,九年级48分,学年内容的比例是1∶2∶2。
通常,我们在命题前会预先公布该年度的笔试考试的内容范围,然后根据这一考试范围研制命题双向细目表,同时根据考试内容范围进行题目的命制,在命制完题目后,再对照双向细目表描述试题所包含的内容,最后计算试题所含内容占双向细目表中的考试范围内容比例。另外,我们还会根据实际授课的课时比例,统计试题分值的分布比例,以观察考试值分量是否合理。还有另一个也是非常重要的评价内容,那就是试题与学科课程板块分布是否合理。
对于中小学教师来说,我们能把握好内容效度也基本能满足平时对学生考试的要求了。
(责编 白聪敏)