论文部分内容阅读
《中国英语能力等级量表》(CSE)是面向我国英语学习者的首个全面的语言能力标准。自2018年正式发布以来,CSE在教、学、测领域受到越来越多的关注。CSE可运用于学习者自评,而其有效使用的前提是确保量表效度。效度是量表质量的关键,贯穿于量表开发和应用的全过程。即使一份量表已经投入使用,在其应用过程中仍需不断积累效度证据,以进一步验证量表效度和修订量表。现有的效度研究较少涉及CSE在实际应用中的效度,而且一些量表,如CSE自评量表,并未经过大规模的效度验证研究。本研究旨在丰富有限的量表效度研究,着重关注CSE自评量表中听力量表的效度。
本研究以Messick的整体效度观为理论基础,采用定量和定性相结合的研究方法,探索CSE在结构、内容和外部层面的效度证据。本研究拟解决三个研究问题:(1)CSE听力自评量表在多大程度上可以区分不同能力水平的学习者?(2)能做描述语在多大程度上拟合CSE听力自评量表的单维模型?(3)学习者自评结果与国内外英语能力水平测试相关性如何?
在方法上,本研究通过自评问卷收集定量数据。问卷包含CSE听力自评量表一至九级共计26条“能做”描述语,主要面向我国不同学科背景的高校大学生,同时也有少量硕士和博士等参与,共调查了1395名学生基于量表的自评情况。本研究采用Rasch模型分析学生自评数据,探索CSE听力自评量表描述语的区分度、难度等级以及单维性。基于皮尔森相关分析探究学习者自评和外部考试分数的相关性。质性分析则基于半结构式访谈,共调查了10名学生对量表描述语的理解,以进一步验证量表在内容层面的效度。
研究发现:(1)CSE听力自评量表涵盖不同难度的项目,总体上可以区分不同语言能力水平的学习者。然而,研究发现量表缺少能区分更高水平学习者的量表项目。另外,大部分CSE等级难度按照量表预期等级递增,但CSE七级、八级和九级难度等级例外。难度等级乱序的原因可能在于:量表项目描述模糊、情景定义不清以及语言任务不熟悉;(2)大多数CSE能做描述语符合Rasch单维听力能力模型,但其中有四个量表项目不拟合模型。可能的原因在于样本效应以及量表描述问题;(3)学生的自评结果与大学英语四级、六级、雅思、托福考试成绩具有中等至较强的相关性,这表明CSE听力自评量表与外部测量在构念方面具有相关性,量表能在一定程度上反映学生在外部语言能力测试上的表现。
该研究采用混合研究方法,基于学习者视角,一定程度上丰富了CSE在不同层面上的效度证据。量表的主要使用者,即学习者基于量表内容的反馈,有望为将来CSE的修订和改进提供一些启示,最终以期促进CSE在我国教、学、测领域更广泛有效的运用。
本研究以Messick的整体效度观为理论基础,采用定量和定性相结合的研究方法,探索CSE在结构、内容和外部层面的效度证据。本研究拟解决三个研究问题:(1)CSE听力自评量表在多大程度上可以区分不同能力水平的学习者?(2)能做描述语在多大程度上拟合CSE听力自评量表的单维模型?(3)学习者自评结果与国内外英语能力水平测试相关性如何?
在方法上,本研究通过自评问卷收集定量数据。问卷包含CSE听力自评量表一至九级共计26条“能做”描述语,主要面向我国不同学科背景的高校大学生,同时也有少量硕士和博士等参与,共调查了1395名学生基于量表的自评情况。本研究采用Rasch模型分析学生自评数据,探索CSE听力自评量表描述语的区分度、难度等级以及单维性。基于皮尔森相关分析探究学习者自评和外部考试分数的相关性。质性分析则基于半结构式访谈,共调查了10名学生对量表描述语的理解,以进一步验证量表在内容层面的效度。
研究发现:(1)CSE听力自评量表涵盖不同难度的项目,总体上可以区分不同语言能力水平的学习者。然而,研究发现量表缺少能区分更高水平学习者的量表项目。另外,大部分CSE等级难度按照量表预期等级递增,但CSE七级、八级和九级难度等级例外。难度等级乱序的原因可能在于:量表项目描述模糊、情景定义不清以及语言任务不熟悉;(2)大多数CSE能做描述语符合Rasch单维听力能力模型,但其中有四个量表项目不拟合模型。可能的原因在于样本效应以及量表描述问题;(3)学生的自评结果与大学英语四级、六级、雅思、托福考试成绩具有中等至较强的相关性,这表明CSE听力自评量表与外部测量在构念方面具有相关性,量表能在一定程度上反映学生在外部语言能力测试上的表现。
该研究采用混合研究方法,基于学习者视角,一定程度上丰富了CSE在不同层面上的效度证据。量表的主要使用者,即学习者基于量表内容的反馈,有望为将来CSE的修订和改进提供一些启示,最终以期促进CSE在我国教、学、测领域更广泛有效的运用。