论文部分内容阅读
引言
语言测试具有多种作用。就教师而言,它可以使教师了解教学效果,为教学提供有价值的反馈信息,是衡量教学质量的一个重要尺度。另一方面,就学生而言,通过考试,学生对前一阶段的学习内容掌握的程度有所了解,可以发现自己学习中存在的问题,弥补不足;最重要的作用是“科学地测量出学习者的语言能力”因此,考试的成败,试题质量的高低对教学和学习会产生直接的影响,必须要保证试题的质量。再一方面,对于研究者来说,他们可以通过采用科学的方法对试题进行各方面的分析,通过对比,通过数据进行进一步的研究,找出隐藏在数据背后的深层次的原因,从而为提高试题质量服务,使试题更具有科学性、说服性和针对性。
本文利用项目分析的方法,通过计算试题的难度和区分度,把那些质量高的试题遴选出来作为电脑试卷的试题,为开发机测的电脑试卷服务。同时,从难度、信度两方面对试题进行讨论分析。
一、测试试题的说明
本次分析的测试试题的受试者是上海交通大学国际教育学院初三级别的96名留学生。试题全是客观题,客观题的评分很客观,不受阅卷人的主观判断的影响。试题共分五大部分:第一部分是有两个选择项的多项选择题,分值为每题1分,共10题;第二部分是有三个选择项的多项选择题,分值为每题2分,共10题;第三部分是有三个选择项的多项选择题,分值为每题2分,共10题;第四部分是判断题,分值为每题3分,共10题;第五部分的(一)是判断题,分值为每题2分,共5题,(二)是有三个选择项的多项选择题,分值为每题5分,共10分。全卷共47题,考试时间为90分钟,采用闭卷考试,答对的题得到相应的分数,答错不扣分,即允许有猜测的成分。
1.项目难度
项目难度系数的范围是0到1,系数越大,项目就越容易。如果所有的项目都很容易或都很难,就不能很好地区分学习好的学生和学习差的学生,因此,测试项目应该处于一个适当的难度范围。一般认为比较合适的难度系数是0.618,低于0.3或高于0.9的都太难或太容易,应该丢弃不要。通过上表分析,难度系数低于0.3的试题没有,高于0.9的试题有5个,分别为四(一)判断的项目1(0.927)、项目3(0.958),(二)判断的项目1(0.938)、项目2(0.938),五(一)判断的项目1(0.917)。这说明判断题比较容易。
2.项目区分度
所谓区分度,就是题目对被试的区分能力。区分度高,水平高的被试答对的可能性越大;反之,水平低的被试答对的可能性越低。如果高水平被试和低水平被试在一个题目上的答对率相同,这个题就不能区分水平不同的被试,是不符合要求的。应该舍弃不要。
计算区分度有几种不同的方法,有极端分组法、点双列相关系数、双列相关系数等。本文采用的是极端分组法。其计算方法是根据被试成绩的高低,把获得较高分数或较低分数的人中各选出25%到27%作为高分组和低分组,用字母D表示,D=(高分组答对人数-低分组答对人数)/全组的总人数。下面的表格表示本次测试中每一个项目的区分度:
区分度的范围是从-1到1。一般地说,比较合适的区分度应该在0.40以上。对于区分度在0.2到-1之间的项目,我们应该舍弃不用。而对于区分度在0.20到0.39之间的项目加以修改。从上表可以看出,区分度处于0.20以下的有:
一、2个选择项的项目1(0.0000)、项目3(0.1250)、项目5(0.0833)、项目9(0.0417);
二、3个选择项的项目7(0.1250)、项目8(0.1667)、项目9(0.1250);
三、3个选择项的项目3(0.1667)、项目10(0.0417);
四、(一)判断的项目1(0.1250)、项目3(0.1667),(二)判断的项目2(0.1250)、项目3(0.1250)、项目5(0.1250),共12项。处于0.4以上的有12项。处于0.20到0.39之间的项目有23项。
3.项目干扰项
在多项选择题中有若干个选项,只有一个是正确答案,其余的是干扰项。干扰项的作用是干扰受试者作出正确的选择。干扰项如果干扰了所有的被试或没有干扰到被试或选择干扰项的高分被试要比低分被试多,说明它没有起到干扰的作用。就要对其进行修改。以下是经过难度、区分度分析后得出的合格的项目的干扰项分析。
说明:1.一题中的项目2的低分组中有一个被试未选择;二题中项目2、项目3、项目4、项目5、项目6的低分组中有一个被试未选择,项目1的低分组中有两个被试未选择;三题中的项目9的低分组中有一个被试未选择,项目2的低分组中有两个被试未选择。
2.斜体部分是不符合测试要求的项目。我们可以看到二题中的项目1的干扰项C、4的干扰项B、,三题中的项目7的干扰项A都是无效干扰项,需要进一步修改。
二、总结
(一)数据统计(下表)
本次听力试题的各种题型的平均难度为:有两个选择项的多项选择题的平均难度是0.700,有三个选择项的多项选择题的平均难度是0.640,判断题的平均难度是0.853。全卷的总平均难度是0.719。
对于区分度来说,本次听力试题的各种题型的平均区分度是:有两个选择项的多项选择题的平均区分度是0.2875,有三个选择项的多项选择题的平均区分度是0.269,判断题的平均区分度是0.283。全卷的总平均区分度是0.277。
从数据统计表中我们得知,全卷的难度相对较低,区分度也不高。全卷的难度应该控制在0.618,区分度控制在0.4。本次试卷的总体质量不高。
(二)讨论
1.题型的设计
本次听力考试采用的都是客观性试题。在测试题型的设计上,客观性试题有一定的优点。赵金铭指出,客观性测试的长度在很大程度上保证了测试的内部一致性信度。同时,规定了答题标准范围和标准答案,评分非常简单、客观。但是,客观题的最大缺点是存在猜测性,特别是两项选择题和判断题,猜中的概率为50%,测试的效度会大大降低。从上表中我们也可以看到两项选择题和判断题的难度是非常低的。为了达到真实地测出被试的语言水平的目的,我们建议尽量不出现这两类题型。如果采用多项选择题,其选择项数目不应太少,最好是4项以上,要采用区分度高的题型。
另外,大学英语四、六级考试题型的改革也给了我们启示。在题型改革上,加大了非选择性试题的比例。其中,听力理解的题型包括多项选择题和复合式听写。宋春阳认为,题型构成要为语言技能考察提供有效性服务,使得听说读写技能能够有效地得以确认,而不是混在一起,降低效度。听力考试尽量避免写作和阅读能力的干扰,除图画、图表之外,应尽量不涉及文字的东西。为了尽可能地使主观题客观化,听力考试的题型可以在多项选择题之外,增加排序题。排序题如果给定四个项目,那么就有1×2×3×4=24种可能,降低了猜中的概率,因而难度较高,区分度较高。
2.教材试题的修改
本次测试的听力试题中有20题是教材中的原题,占总题数的43%。这些题是一、两项选择题的1、2、3、4、5、6、7、10,三中的1、4,还有四的对话1和对话2,这些题的区分度并不高,而且有8题是不合区分度要求的,是要被舍弃掉的。所以,我们觉得现行听力教材中的试题存在问题,有必要对教材中的题进行分析,提高其质量。
*本文受上海交通大学985项目编号04-31-“汉语水平机助自适应测试系统题库建设理论研究”资助。
参考文献:
[1]张凯.语言测试理论与实践[M].北京: 北京语言文化大学出版社,2002.
[2]赵金铭.对外汉语教学概论[M].北京: 商务印书馆,2004.
[3]宋春阳. 基于统计的对外汉语电脑辅助测试题型构成研究[J].第八届世界汉语教学讨论会大会宣读论文.
(崔宁 宋春阳,上海交通大学国际教育学院)
语言测试具有多种作用。就教师而言,它可以使教师了解教学效果,为教学提供有价值的反馈信息,是衡量教学质量的一个重要尺度。另一方面,就学生而言,通过考试,学生对前一阶段的学习内容掌握的程度有所了解,可以发现自己学习中存在的问题,弥补不足;最重要的作用是“科学地测量出学习者的语言能力”因此,考试的成败,试题质量的高低对教学和学习会产生直接的影响,必须要保证试题的质量。再一方面,对于研究者来说,他们可以通过采用科学的方法对试题进行各方面的分析,通过对比,通过数据进行进一步的研究,找出隐藏在数据背后的深层次的原因,从而为提高试题质量服务,使试题更具有科学性、说服性和针对性。
本文利用项目分析的方法,通过计算试题的难度和区分度,把那些质量高的试题遴选出来作为电脑试卷的试题,为开发机测的电脑试卷服务。同时,从难度、信度两方面对试题进行讨论分析。
一、测试试题的说明
本次分析的测试试题的受试者是上海交通大学国际教育学院初三级别的96名留学生。试题全是客观题,客观题的评分很客观,不受阅卷人的主观判断的影响。试题共分五大部分:第一部分是有两个选择项的多项选择题,分值为每题1分,共10题;第二部分是有三个选择项的多项选择题,分值为每题2分,共10题;第三部分是有三个选择项的多项选择题,分值为每题2分,共10题;第四部分是判断题,分值为每题3分,共10题;第五部分的(一)是判断题,分值为每题2分,共5题,(二)是有三个选择项的多项选择题,分值为每题5分,共10分。全卷共47题,考试时间为90分钟,采用闭卷考试,答对的题得到相应的分数,答错不扣分,即允许有猜测的成分。
1.项目难度
项目难度系数的范围是0到1,系数越大,项目就越容易。如果所有的项目都很容易或都很难,就不能很好地区分学习好的学生和学习差的学生,因此,测试项目应该处于一个适当的难度范围。一般认为比较合适的难度系数是0.618,低于0.3或高于0.9的都太难或太容易,应该丢弃不要。通过上表分析,难度系数低于0.3的试题没有,高于0.9的试题有5个,分别为四(一)判断的项目1(0.927)、项目3(0.958),(二)判断的项目1(0.938)、项目2(0.938),五(一)判断的项目1(0.917)。这说明判断题比较容易。
2.项目区分度
所谓区分度,就是题目对被试的区分能力。区分度高,水平高的被试答对的可能性越大;反之,水平低的被试答对的可能性越低。如果高水平被试和低水平被试在一个题目上的答对率相同,这个题就不能区分水平不同的被试,是不符合要求的。应该舍弃不要。
计算区分度有几种不同的方法,有极端分组法、点双列相关系数、双列相关系数等。本文采用的是极端分组法。其计算方法是根据被试成绩的高低,把获得较高分数或较低分数的人中各选出25%到27%作为高分组和低分组,用字母D表示,D=(高分组答对人数-低分组答对人数)/全组的总人数。下面的表格表示本次测试中每一个项目的区分度:
区分度的范围是从-1到1。一般地说,比较合适的区分度应该在0.40以上。对于区分度在0.2到-1之间的项目,我们应该舍弃不用。而对于区分度在0.20到0.39之间的项目加以修改。从上表可以看出,区分度处于0.20以下的有:
一、2个选择项的项目1(0.0000)、项目3(0.1250)、项目5(0.0833)、项目9(0.0417);
二、3个选择项的项目7(0.1250)、项目8(0.1667)、项目9(0.1250);
三、3个选择项的项目3(0.1667)、项目10(0.0417);
四、(一)判断的项目1(0.1250)、项目3(0.1667),(二)判断的项目2(0.1250)、项目3(0.1250)、项目5(0.1250),共12项。处于0.4以上的有12项。处于0.20到0.39之间的项目有23项。
3.项目干扰项
在多项选择题中有若干个选项,只有一个是正确答案,其余的是干扰项。干扰项的作用是干扰受试者作出正确的选择。干扰项如果干扰了所有的被试或没有干扰到被试或选择干扰项的高分被试要比低分被试多,说明它没有起到干扰的作用。就要对其进行修改。以下是经过难度、区分度分析后得出的合格的项目的干扰项分析。
说明:1.一题中的项目2的低分组中有一个被试未选择;二题中项目2、项目3、项目4、项目5、项目6的低分组中有一个被试未选择,项目1的低分组中有两个被试未选择;三题中的项目9的低分组中有一个被试未选择,项目2的低分组中有两个被试未选择。
2.斜体部分是不符合测试要求的项目。我们可以看到二题中的项目1的干扰项C、4的干扰项B、,三题中的项目7的干扰项A都是无效干扰项,需要进一步修改。
二、总结
(一)数据统计(下表)
本次听力试题的各种题型的平均难度为:有两个选择项的多项选择题的平均难度是0.700,有三个选择项的多项选择题的平均难度是0.640,判断题的平均难度是0.853。全卷的总平均难度是0.719。
对于区分度来说,本次听力试题的各种题型的平均区分度是:有两个选择项的多项选择题的平均区分度是0.2875,有三个选择项的多项选择题的平均区分度是0.269,判断题的平均区分度是0.283。全卷的总平均区分度是0.277。
从数据统计表中我们得知,全卷的难度相对较低,区分度也不高。全卷的难度应该控制在0.618,区分度控制在0.4。本次试卷的总体质量不高。
(二)讨论
1.题型的设计
本次听力考试采用的都是客观性试题。在测试题型的设计上,客观性试题有一定的优点。赵金铭指出,客观性测试的长度在很大程度上保证了测试的内部一致性信度。同时,规定了答题标准范围和标准答案,评分非常简单、客观。但是,客观题的最大缺点是存在猜测性,特别是两项选择题和判断题,猜中的概率为50%,测试的效度会大大降低。从上表中我们也可以看到两项选择题和判断题的难度是非常低的。为了达到真实地测出被试的语言水平的目的,我们建议尽量不出现这两类题型。如果采用多项选择题,其选择项数目不应太少,最好是4项以上,要采用区分度高的题型。
另外,大学英语四、六级考试题型的改革也给了我们启示。在题型改革上,加大了非选择性试题的比例。其中,听力理解的题型包括多项选择题和复合式听写。宋春阳认为,题型构成要为语言技能考察提供有效性服务,使得听说读写技能能够有效地得以确认,而不是混在一起,降低效度。听力考试尽量避免写作和阅读能力的干扰,除图画、图表之外,应尽量不涉及文字的东西。为了尽可能地使主观题客观化,听力考试的题型可以在多项选择题之外,增加排序题。排序题如果给定四个项目,那么就有1×2×3×4=24种可能,降低了猜中的概率,因而难度较高,区分度较高。
2.教材试题的修改
本次测试的听力试题中有20题是教材中的原题,占总题数的43%。这些题是一、两项选择题的1、2、3、4、5、6、7、10,三中的1、4,还有四的对话1和对话2,这些题的区分度并不高,而且有8题是不合区分度要求的,是要被舍弃掉的。所以,我们觉得现行听力教材中的试题存在问题,有必要对教材中的题进行分析,提高其质量。
*本文受上海交通大学985项目编号04-31-“汉语水平机助自适应测试系统题库建设理论研究”资助。
参考文献:
[1]张凯.语言测试理论与实践[M].北京: 北京语言文化大学出版社,2002.
[2]赵金铭.对外汉语教学概论[M].北京: 商务印书馆,2004.
[3]宋春阳. 基于统计的对外汉语电脑辅助测试题型构成研究[J].第八届世界汉语教学讨论会大会宣读论文.
(崔宁 宋春阳,上海交通大学国际教育学院)