论文部分内容阅读
【摘要】项目反应理论可通过测试各个项目反应曲线分析项目区分度、难度、猜测度等项目参数,从而为测试项目的编制和筛选提供数据基础和理论框架。本研究用项目反应理论分析西安交通大学2013年大学英语考试听力试题,发现该项目难度中等,题目的区分度比较理想,听力理解水平较低的考生仅凭猜测而答对的概率在正常范围内。但也个别项目提供的信息量不足、质量不高。因此,对质量较低的题项,应提高区分度 、改善试題对听力能力的贡献大小等方法提高命题质量。
【关键词】项目反应理论;英语听力试题;项目参数
【作者简介】范思颖,武天琪,西安交通大学外国语学院。
一、引言
项目反应理论(IRT)是心理与教育测量理论的新发展,其理论应用的意义主要在于可以指导测验项目的编制和筛选。理论通过测试各个项目反应曲线分析项目区分度、难度、猜测度等项目参数,从而为项目的编制和筛选提供数据基础和理论框架。
本研究以西安交通大学2013年大学英语考试为例展示项目反应理论在试题质量评价中的应用。本研究数据来自西安交通大学2013年大学英语考试结果,本次考试试卷结构如表1所示。本次考试包含A级和B级两套试卷,其中A级和B级的听力和阅读一样,词汇不一样。本研究抽取A级与B级944份学生试卷作为样本,只涉及试卷听力部分客观题的分析,题目数为25个。
二、试题分析
1.单维性假设检验。单维性假设检验是指测验只测量被试的某一种潜在特质,可以忽略其他潜在特质对测验结果的影响。单维性假设检验的主要方法是因素分析法。对考试结果进行因素分析,当抽取的第一个公共因素的特征根值明显大于第二特征根值的3倍或以上,则认为测验符合单维性条件。对于词汇部分题目的KMO检验值为0.88,大于0.7,说明题目适合进行因子分析。对题目的因子维度分析中我们采用主成分分析法,因子提取标准为特征值大于1。
从提取的因子解释的总方差可以看出,第一个因子解释的方差占总方差的16.640%,而第二个因子解释的方差仅占5.169%,抽取的第一个公共因素解释变异大于第二个公共因素解释变异的3倍,可以认为本次英语听力测试的维度是单维的。
2.试题信度检验。测试信度主要指测量的一致性程度。克隆巴赫系数(Cronbach’s alpha)是心理或教育测试中最常用的信度评估工具,它依据一定公式估量测验内部的一致性,作为信度的指标。通常克隆巴赫系数的值在0和1之间,如果系数不超过0.6,一般认为内部一致性信度不足;达到0.7-0.8表明测试具有相当的信度;达到0.8-0.9表明测试信度非常好。根据SPSS的分析结果,克隆巴赫系数为0.784,表明本次测试听力客观题的信度可以接受。
3.项目分析。在 IRT中,将任一个项目参数 、考生能力值与考生对题目的答对率以一个指数函数来表示,再根据每个人在每道题目上的回答情况,直接估计题目的参数和考生能力值 。这种做法的好处, 是将题目的难度值与考生的能力值都放在同一个量尺上, 有助于理解考生能力与其在各个题目上答对率的关系。本研究采用 IRT 模型,使用 BILOG-MG3.0软件对西安交通大学2013年大学英语考试听力部分做项目分析。
BILOG-MG3.0首先输出听力项目的经典测量项目分析指标: 难度(答对百分比)和区分度(分别以项目和总分之间的皮尔逊相关系数和点双列相关系数表示)。软件提示,所有项目的区分度(皮尔逊相关系数为和点双列相关系数均大于0.1)比较理想。第二步输出项目参数估计值以及单维性检验中项目对单因子的负荷值,即项目对听力理解的贡献大小 。
整体来讲, 听力项目的平均区分度为0.956 ,标准差为0.188;平均难度为0.442, 标准差为0.578;平均猜测度为 0.348,标准差为0.082。所有项目的区分度都在0.5以上;难度较大的试题为第2、3、4、13题。也就是说, 西安交通大学2013 年大学英语考试听力项目的难度中等,题目的区分度比较理想。而听力理解水平较低的考生凭猜测而答对的概率为34.8%。由于本研究中学生作答数据为只用01表示对错的两级答案,听力理解项目猜测度在正常范围内。
参数估计表明,几乎所有的听力项目的参数指标都非常理想,难度、区分度和猜测度等指标大都符合要求。通过项目特征曲线,发现第23题和第1题的项目特征曲线都比较吻合理论曲线,但第23题区分度明显比第1题大。信息函数曲线则可以进一步验证试题质量的好坏。例如,ITEM0023最大信息量约为0.86,质量良好;而ITEM0001最大信息量则低于0.25,质量较差。
三、结论
本研究运用IRT方法并结合具体试题对西安交通大学2013年大学英语考试听力理解项目质量进行了分析,发现该项目难度中等,题目的区分度比较理想,听力理解水平较低的考生仅凭猜测而答对的概率在正常范围内。但也个别项目提供的信息量不足、质量不高。因此,应该对项目质量较低的题目, 可试情况分别采用提高区分度 、改善试题对听力能力的贡献大小等方法提高命题质量。
参考文献:
[1]黄锐,虞秋玲.项目反应理论在听力测试中应用的案例研究——以2006年英语专业四级听力试题为例[J].集美大学学报(哲学社会科学版),2009,12,3.
[2]彭康洲,李清华.应用IRT模型分析TEM 4听力理解项目的质量[J].外语教学理论与实践,2009,3.
[3]赵守盈,石艳梅,朱丹.项目反应理论在大规模选拔性考试试题质量评价中的应用[J].教育学报,2013,9,1.
【关键词】项目反应理论;英语听力试题;项目参数
【作者简介】范思颖,武天琪,西安交通大学外国语学院。
一、引言
项目反应理论(IRT)是心理与教育测量理论的新发展,其理论应用的意义主要在于可以指导测验项目的编制和筛选。理论通过测试各个项目反应曲线分析项目区分度、难度、猜测度等项目参数,从而为项目的编制和筛选提供数据基础和理论框架。
本研究以西安交通大学2013年大学英语考试为例展示项目反应理论在试题质量评价中的应用。本研究数据来自西安交通大学2013年大学英语考试结果,本次考试试卷结构如表1所示。本次考试包含A级和B级两套试卷,其中A级和B级的听力和阅读一样,词汇不一样。本研究抽取A级与B级944份学生试卷作为样本,只涉及试卷听力部分客观题的分析,题目数为25个。
二、试题分析
1.单维性假设检验。单维性假设检验是指测验只测量被试的某一种潜在特质,可以忽略其他潜在特质对测验结果的影响。单维性假设检验的主要方法是因素分析法。对考试结果进行因素分析,当抽取的第一个公共因素的特征根值明显大于第二特征根值的3倍或以上,则认为测验符合单维性条件。对于词汇部分题目的KMO检验值为0.88,大于0.7,说明题目适合进行因子分析。对题目的因子维度分析中我们采用主成分分析法,因子提取标准为特征值大于1。
从提取的因子解释的总方差可以看出,第一个因子解释的方差占总方差的16.640%,而第二个因子解释的方差仅占5.169%,抽取的第一个公共因素解释变异大于第二个公共因素解释变异的3倍,可以认为本次英语听力测试的维度是单维的。
2.试题信度检验。测试信度主要指测量的一致性程度。克隆巴赫系数(Cronbach’s alpha)是心理或教育测试中最常用的信度评估工具,它依据一定公式估量测验内部的一致性,作为信度的指标。通常克隆巴赫系数的值在0和1之间,如果系数不超过0.6,一般认为内部一致性信度不足;达到0.7-0.8表明测试具有相当的信度;达到0.8-0.9表明测试信度非常好。根据SPSS的分析结果,克隆巴赫系数为0.784,表明本次测试听力客观题的信度可以接受。
3.项目分析。在 IRT中,将任一个项目参数 、考生能力值与考生对题目的答对率以一个指数函数来表示,再根据每个人在每道题目上的回答情况,直接估计题目的参数和考生能力值 。这种做法的好处, 是将题目的难度值与考生的能力值都放在同一个量尺上, 有助于理解考生能力与其在各个题目上答对率的关系。本研究采用 IRT 模型,使用 BILOG-MG3.0软件对西安交通大学2013年大学英语考试听力部分做项目分析。
BILOG-MG3.0首先输出听力项目的经典测量项目分析指标: 难度(答对百分比)和区分度(分别以项目和总分之间的皮尔逊相关系数和点双列相关系数表示)。软件提示,所有项目的区分度(皮尔逊相关系数为和点双列相关系数均大于0.1)比较理想。第二步输出项目参数估计值以及单维性检验中项目对单因子的负荷值,即项目对听力理解的贡献大小 。
整体来讲, 听力项目的平均区分度为0.956 ,标准差为0.188;平均难度为0.442, 标准差为0.578;平均猜测度为 0.348,标准差为0.082。所有项目的区分度都在0.5以上;难度较大的试题为第2、3、4、13题。也就是说, 西安交通大学2013 年大学英语考试听力项目的难度中等,题目的区分度比较理想。而听力理解水平较低的考生凭猜测而答对的概率为34.8%。由于本研究中学生作答数据为只用01表示对错的两级答案,听力理解项目猜测度在正常范围内。
参数估计表明,几乎所有的听力项目的参数指标都非常理想,难度、区分度和猜测度等指标大都符合要求。通过项目特征曲线,发现第23题和第1题的项目特征曲线都比较吻合理论曲线,但第23题区分度明显比第1题大。信息函数曲线则可以进一步验证试题质量的好坏。例如,ITEM0023最大信息量约为0.86,质量良好;而ITEM0001最大信息量则低于0.25,质量较差。
三、结论
本研究运用IRT方法并结合具体试题对西安交通大学2013年大学英语考试听力理解项目质量进行了分析,发现该项目难度中等,题目的区分度比较理想,听力理解水平较低的考生仅凭猜测而答对的概率在正常范围内。但也个别项目提供的信息量不足、质量不高。因此,应该对项目质量较低的题目, 可试情况分别采用提高区分度 、改善试题对听力能力的贡献大小等方法提高命题质量。
参考文献:
[1]黄锐,虞秋玲.项目反应理论在听力测试中应用的案例研究——以2006年英语专业四级听力试题为例[J].集美大学学报(哲学社会科学版),2009,12,3.
[2]彭康洲,李清华.应用IRT模型分析TEM 4听力理解项目的质量[J].外语教学理论与实践,2009,3.
[3]赵守盈,石艳梅,朱丹.项目反应理论在大规模选拔性考试试题质量评价中的应用[J].教育学报,2013,9,1.