大学英语课程测评体系使用论证

来源 :文教资料 | 被引量 : 0次 | 上传用户:xufei037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 基于6所高校大学英语课程测评的数据记录,在测评使用论证框架(AUA)下,对课程测评的质量和使用进行论证。以数据为起点、图尔敏逻辑模型为形式,依次论证测评记录、测评解释意义、测评决策和测评后效的主张及反驳理据。论证结果发现,课程测评解释在构念效度这个核心问题上的主张成立,但在分数内部一致性、评分员一致性、决策依据逻辑性和后效等方面形成了较强的反驳。在分析数据和反驳的基础上,提出提高课程测评质量和使用逻辑的建议。
  关键词: 测评使用论证 大学英语 期末考试 过程评价
  一、引言
  教育部高教司颁布的《大学英语教学指南》(2017)把目前全国的大学英语课程定位为“目标课程”,其课程目标全面涵盖了语言能力的构成和目标,并指出应构建大学英语课程“校本评价与其他多样化评价相结合”的综合评价体系和“共同基础测试与其他多样化测试相结合”的综合测试体系。刘建达(2015;2016)主张在《中国英语等级量表》的标准体系下,大学英语的测评应综合课程内评价和外部评价,校本英语测评和共同测试共同构成完整的大学英语评价体系;建立一个准确、公平、高效的大学英语测评体系非常重要。
  目前我国大学英语课程测评体系主要由期末考试、过程评价两部分组成。大学英语课程测评具有大规模、高利害测评的特征,其结果影响到毕业、推免研究生、评优/奖、反馈学科发展信息、筛选学科人才等诸多工作,如果其本身设计合理、稳定、权威,则有助于促进上述工作进入良性循环。若其设计不合理,自身质量不过关,则测评结果不足以准确、全面地反映学科建设和人才培养的质量,难以为学科建设中的决策提供信息支持。对当前大学英语测评的质量进行论证,对于教师和教学管理人员认识、改进测评体系,促进教学改革尤为重要。
  二、文献综述
  1.测评使用论证
  Bachman和Palmer(2010)在《语言测评实践:现实世界中语言测评的开发与使用论证》一书中以效度理论家Kane(2002;2006)的效度论证模型为蓝本,提出测评使用论证(AUA)框架,论证语言测评质量与使用的合理性(justification)。在AUA框架中,对测评的使用论证包括五个环节:受试者的测评表现、测评记录、测评解释、决策和后效,诸环节的合理性是逐层推理的过程,每一次推理都需要论证,全部环节的论证结果汇总为测评的论证结論。
  AUA框架对的论证模式为“用事实推导结论”:对每个环节的合理性设定一个“主张”,作为推导结论。该主张要有理据(warrant)做支撑,理据的成立需要“验证”(backing)为支撑,验证的基础是测试中的“数据”(data)。主张是否成立取决于以上推理过程的完整性与可靠性。与此同时,论证人员基于证据对主张进行反驳论证(rebuttal)。反驳与理据是主张的正反两面,用于否定主张。如果反驳成立,则影响主张的合理性。因此,在测评的开发和完善工作中,开发人员需要尽可能削弱反驳及其证据的发生。
  具体地说,测评记录环节的主张最关注测评记录的一致性,其论证理据和验证过程主要涉及分数的内部一致性、组间一致性、测试及分数收集环境、评分信度等问题;解释环节是论证的核心环节,主要论证分数的解释意义是否与测试构念相符,这也是传统效度验证的核心问题(李筱菊 2001;Fulcher,2012),本环节同时关注分数无偏性、任务特征、解释的充分性等;在决策和后效两个环节,AUA框架把决策和测评利益相关人员联系起来,阐明决策的价值观和公平性,同时对决策如何影响利益相关者进行论证。考生的测评表现仅作为初始数据,不参与论证。
  2.语言测评的效度和信度
  测评的论证过程中必然涉及其效度和信度属性。效度问题是语言测评的核心问题,对效度的研究即从测评结果取得证据,以此推断被试的语言能力及其差异的过程。根据获取证据的途径不同,效度可以分为内容效度、效标关联效度和构念效度三大类,其中以构念效度为核心。
  构念效度是由美国心理学协会(1954;1985)在《心理测量与诊断技术的技术建议》中首次提出,并于1985年明确认定构念效度是测评的效度三种证据来源之一。“构念”指语言能力的心理结构,是对人的被测试语言能力的虚拟阐述,用来描述或预测人的语言能力的组成结构。Messick(1989)的效度整体观认为,构念效度揭示了效度的实质,是效度的核心内容,此理论被众多知名语言测试学家(Kane,2002;Mcnamara,2006;Weir,2010)所公认。
  判断一个语言测评的质量,信度也是一个重要指标,主要用来衡量测评记录的稳定性、一致性的情况。一个高信度的语言测评,对于同一组被试反复测量,其结果应该基本不变。内部信度一致性是一种常见的测评信度指标,一般使用克隆巴赫α系数计算。
  三、大学英语课程测评使用论证
  本研究组于2013年-2017年对江苏省6所普通本科高校29次大学英语学业期末考试、过程评价、测评决策及后效反馈进行调研,采集分数记录,利用问卷和访谈对学生、教师和系部主任收集后效反馈。每所高校有效学生样本组数为997至5256不等,教师评分员样本数164人次。在AUA理论框架下,对调研对象的大学英语课程测评进行使用论证,从测评记录、意义解释、决策及其后效等环节对其“合理性”进行论证,对各环节的主张及构成要件同时进行正面论证和反驳论证,分析该学业测试的使用是否合理,对被试学生是否公平,对利益相关者是否提供充分的善益性。
  1.测评记录论证
  在AUA理论框架中测评记录的主张为:在不同的测评任务、流程和对象中的记录稳定、一致。理据主要包括:对所有考生执行标准化的测评程序;测评项目之间分数内部一致;同一评分员的评分结果内部一致;评分员之间评分内部一致。
  在6所高校师生中通过问卷和访谈调研测评程序,结果发现:在期末考试环节,6所高校对所有学生均执行学校统一的测试时间、环境、评分流程和标准,无明显偏差,学期之间保持连续一致。过程评价的评价方式和内容表现出明显差异:4所高校以课堂评价和网络自主学习测验为主要形式,1所高校以课堂评价和阶段测验为主要形式,1所高校仅使用课堂评价。在课堂评价内容上,所有高校均由教学大纲统一规定评价项目,但无高校采用统一的评分标准。   采用克隆巴赫α系数对调研范围内29次期末笔试得分数据的内部一致性逐一检验,结果表明6次考试的内部一致性系数介于0.6-0.8,属于正常教育测量标准范围(王孝玲 2015);23次笔试部分内部一致性系数介于0.35-0.6,对本论证环节的主张构成明显的反驳证据。
  对评分员一致性的论证:在受调研的每次测评中随机抽取8名评分员,选取每名评分员的100个评分记录,用皮尔逊积差相关系数计算其一致性。结果如下:以0.7为信度系数合格阈值,在口语测试中,评分员一致性达标组数为22组,合格率22%;写作测试达标81组,合格率70%;过程评价达标34组,合格率29%。数据统计结果对测试记录主张构成强反驳论证。从评分过程和评分员的调研中可知,反驳理由主要包括:评分量表操作性不强、缺乏统一的评分员培训、没有高校设置试评分验证和等值机制。
  2.测评解释论证
  AUA框架中测评解释的论证主张为:对考生的能力解释有意义、无偏、概化、相关、充分。其主要理据包括:测评记录在统计学意义上充分符合测评的构念目标;测评的任务特征符合测评真实性原则;测评解释意义与决策逻辑相符。
  对测评分数意义的解析主要从内容效度和构念效度两个方面实现。在内容效度上,对测评任务特征和考点进行分析和专家判断,衡量其是否符合测评目标。在构念效度上,使用因子分析等统计手段对测试构念进行降维提取。
  对29次期末考试的91篇阅读理解测试进行统计分析,其语篇长度范围在270个-360个单词,话题涵盖社会、文化、科技、教育等,体裁包括说明、议论和记叙三种,符合《大学英语教学指南》的要求,亦与所在高校的教学大纲相符。符合本环节论证理据。但对于具体专业(如消防工程专业)的学生来说,统一的、偏人文类的测评任务并不能反映其目标语言使用域(Bachman,2010),构成了一定程度上的反驳论证。
  对调研范围内的全部115篇阅读测试(包括阅读理解和长篇阅读)的考点和试题内容进行统计分析,发现其内容效度参数(文体、语言复杂度、内部信息关系、文化特征)比较全面地覆盖了阅读的策略能力、语言能力、语篇能力和社会语言能力四个构念维度(Alderson,134-136)。虽然每个学期的考试题数量有限,不能包含所有阅读构念,但从四个学期的完整教学周期统计,较好地实现了测试构念全面覆盖。对得分明细进行探索性因子分析,提取公因子并参照阅读构念的内容逐一认定试题的测量目标,分析结果与上述分析吻合,支持解释意义的主张和理据。
  Buck(2001)从语言知识(语法、语篇、语用、社会语言)和策略能力(认知、元认知)两个维度定义听力构念,并具体解释为语音知识、信息定位、局部/整体理解和推断能力。依照此标准对全部88个听力测试分项进行上述相同的验证,内容统计和因子分析结果均显示听力上的解释主张和理据得到全面的支持。
  在论证分数的解释意义与决策的逻辑关系时,受调研的课程测评表现出非常明显的反驳证据。课程测评的使用者为教师和教学管理人员,他们把学生的期末考试和过程评价分数合成一个总分数,基于这个分数和学生的排序情况做出不同类别的决策。但在统计和论证中发现,全部29次过程评价的内容均包括出勤、课堂参与等学习策略因素,这与期末考试的测试构念属于不同类型,两者得分的皮尔逊积差相关系数仅为0.14-0.34,属于极低水平。教师和管理人员把两部分成绩简单加权合成,各自污染了对方的测试效度,不符合测量统计逻辑。此外,閱读、听力、写作和听力各项属于不同的语言能力特质,使用绝对分值简单相加,计算出的考生排名也受到了类似的干扰(张厚璨,2004),不符合决策需要。
  3.测评决策和后效论证
  AUA框架对测评的决策主张:基于测评解释结果做出合理公平的决策。其主要理据为:决策谨慎、符合社会价值观;设置分数线;分数是相关决策唯一的依据。
  后效主张为测评的后效对于利益相关者是善益的。其主要理据为:测评结果表达及时、清晰易懂;测评让利益相关者均受益。
  受调研高校均以60分为明确的分数线,高于60分即为合格,低于60分为不合格。相应的决策为不及格的学生要补考或重修,不及格成绩将对其奖学金和毕业有直接影响。在对67名教师、12名教研室负责人的访谈和问卷调查中得知,绝大多数教师和所有教学管理人员都认为自己主要从学生的最终成绩单上判断其英语水平。但基于测评解释论证的结果可知,在受调研的29次课程测评中,其分数解释意义均增加了出勤、课堂参与等态度、学习策略内容,形成了“分数是相关决策唯一依据”的反驳论证。
  课程测评的一个重要功能是为教学提供反拨作用(亓鲁霞,2006),针对教师的67份有效调查问卷结果显示,全部受调研的教师认为自己“未能依据课程测评成绩中有效改变未来的教学计划和内容”,12名受访的教研室主任中10名也肯定了这一结果。受调查的418名学生中233人认为“课程测评不能促进我更加努力地学习英语”,占比56%,持肯定态度的仅为80人,占比19%。96%的学生表示希望得到各分项测评分数及其意义描述。以上结果在决策和后效论证上形成了较强的反驳证据。
  四、总结和建议
  在AUA框架下,对6所高校的29次大学英语课程测评在测评记录、解释、决策和后效层面进行使用论证,结果表明:由于课程测评较多使用了信效度较高的CET测试题,使得在构念效度这个核心问题上的主张成立,保障了测评内容质量。此外,在测试流程标准化上得到了积极性的论证结果。但在期末考试内部一致性、评分员一致性、决策依据逻辑性和决策对教学、学习的后效等方面,反驳证据明显强于理据,主张被大幅度削弱,主要原因分别为测评结构缺乏统一规划;考试与评价不同质;测评决策逻辑性弱。测评开发者和使用者有必要做出相应的改进,因此对大学英语课程测评的开发和使用提出如下建议:
  1.基于全面、标准的英语能力等级量表作为测评规划和开发的依据,在整体教学大纲的框架下,合理规划考点,使用学业水平测试代替语言知识为主的结构主义测试方法。《欧洲共同语言框架》(CEFR)和教育部高教司即将颁布的《中国英语等级量表》可以为效度设计和实现提供内容和等级基准;在能力量表框架内开发主观测评项目等级制评分标准,进行统一连续的评分员培训,在测评内容和评分标准层面上保障主观评分项目的效度,同时进行必要的主观题评分验证和等值处理,确保评分的公平稳定。   2.以构念效度为出发点,设计与期末考试同轨、通衡、互补的过程评价内容,区分测评体系中语言能力因素与学习策略因素,从而在分数解释和决策中区分对待,防止效度污染。改进分数计算和使用方法,使用分项标准分计算测评总分,可以减少测评项目异质性带来的计算误差。
  3.建议成立专门的测评分析部门,分项报道成绩,以质量报告形式解读分数分布、对比和发展趋势,发布教学使用建议,使测评结果提供更加充分的解释信息和决策数据,成为教学方法和教学管理中的重要依据。同时建议增强测评的权威性和决策逻辑性,调动学习积极性。
  参考文献:
  [1]American Psychological Association. Technical Recommendations for Psychological Testing and Diagnostic Techniques[J]. Psychological Bulletin,1954,51(2:2):1-38.
  [2]American Psychological Association. Standards for Educational and Psychological Testing[M]. Washington, DC:APA,1985.
  [3]Alderson,J.Charles. Assessing reading阅读评价[M].北京:外语教学与研究出版社,2011.
  [4]Bachman, L.
其他文献
摘 要: 随着移动互联时代的到来,高校突发事件具有新的内涵和特点。应对策略总体上应把握因校制宜、有法可依,专职负责、协调联动,反应快速、处置及时,公开透明、依法处置等原则。在具体处理过程中首先要保证:对信息的占有量和准确性;有专人负责与媒体进行沟通;人财物的储备;决策者的能力和经验。其次,要分工明确,有步骤地对现场和相关人员进行分类处置。在善后阶段,要做好新闻发布、对相关人员的心理干预治疗和启动问
摘 要: 本研究运用质的研究方法,对20名学前教育专业学生进行半结构式访谈,了解其眼中的幼儿教师的职业魅力。研究结果显示:随着专业课程学习和实践,学前教育专业学生对幼儿教师的职业魅力认识越来越深刻,其魅力主要体现在幼儿、同事及专业化和职业化等方面。  关键词: 幼儿教师 职业魅力 学前教育  一、问题的提出  “2016年全国共有幼儿园23.98万所,比上年增加1.61万所,入园儿童1922.09
摘 要: 本文以外语人才培养现状为切入点,阐述现行人才培养模式在实际中展现出来的问题,以此为基础,结合外语人才市场需求,分析新形势下“外语 ”人才培养的意义,特别是复合型人才的培训意义。同时结合相关问卷调查结果,探索独立学院培养“外语 ”人才正确可行的方案。  关键词: 独立学院 “外语 ” 人才 培养模式  创办于1998年的独立学院,以《关于规范并加强普通高校以新的机制和模式试办独立学院管理的
摘 要: 本文以巡警徐晋格同志在执法行动中因安全意识不足而导致不必要的牺牲为例,进行系统的分析和深刻的反思。为提高民警执法安全意识,改良一线民警防护装备、树立正确战斗理念、学习安全执法的法律知识、加强民警徒手防卫技能势在必行。经过完善执法管理制度,增强警察在新形势下的安全意识,将避免、减少“人民卫士”的无谓伤亡。  关键词: 抓捕现场 警察 执法安全意识  引言  警察这一职业是神圣的、光荣的,从
摘 要: 《丑小鸭》是安徒生的一篇经典童话,在解读这篇童话时,人们习惯于肯定坚守和梦想的作用。其实,童话文本内部蕴含着一个人对自我生命存在的认知去蔽的过程,通过童话学习,鼓励孩子们多元化地审视他人和自我的生命存在,超越经验世界狭隘、僵化的评价思维模式,发现生命本真的“澄明之境”。  关键词: 丑小鸭 去蔽 经验世界 澄明之境  《丑小鸭》是丹麦作家安徒生的一篇著名童话,也是经常被选入中小学
摘 要: 汉语是声调语言,英语是语调语言,英美留学生的汉语声调问题日渐凸显。为了帮助英美留学生更好地习得汉语声调,本文在汉英语音对比的基础上,结合各种汉语声调教学法的优点,提出分阶段汉语声调教学法。  关键词: 汉语语音 英语语音 语音对比 声调教学法  随着“汉语热”的出现,汉英语言对比研究便层出不穷,目前汉英语言的对比研究大多集中在以下几个方面:一是汉英语言在语音、语法、词汇、语用方面的研究;
(长治学院 中文系,山西 长治 046011)  摘 要: 古代漢语是新闻学专业的一门专业基础课,内容丰富且复杂,多数地方性院校课程设置时给予的课时数较少,因此教师必须对教学内容进行优化选择,重视文字、词汇、古代文化常识及文选知识,淡化语法、修辞、常用工具书等内容,舍弃音韵学、古书注解及诗词格律,保证教学效果。  关键词: 古代汉语课程 新闻学专业 教学内容  20世纪80年代以后,国际高教界逐渐
摘 要: 本文通过对招聘会上外贸企业和商务英语专业学生的问卷调查,从知识和能力两个维度分析了企业对外贸人才的需求,同时反映出学生的知识和能力与企业需求是不匹配的。要突出应用型本科的价值,提升学生就业竞争力,高校在制订人才培养方案时要和地方经济动态对接,构建基于岗位需求的课程体系,建设课程群师资队伍,构建新型定岗实习模式,培养学生的创新能力。  关键词: 商务英语专业 外贸人才 企业需求  2017
摘 要: 二战以后,广大亚非拉的发展中国家从殖民和内乱的困境中解放出来,迫切的发展问题成为各个国家政策和行为的宗旨,但是发展的渴望带来的却是动荡的政治秩序和混乱的国内政局,如何化解这种矛盾,亨廷顿通过实地调查和分析,创新性地提出了政治发展理论——通过对比发展与稳定之间失衡与平衡之间的差异,研究利用政治制度化、改革等举措维护政治稳定,从而推进发展中国家政治现代化。亨廷顿的观点为众多发展中国家平稳实现
摘 要: 随着移动互联网技术的飞速发展,微信这一即时通信工具走进了大学生的学习与生活,对大学生日常行为、价值观念、思想道德、心理健康及学习习惯等方面产生了深刻的影响。本文系统总结微信对大学生思想政治教育带来的问题,进而提出新媒体视域下利用微信开展大学生思想政治教育的机制,对于开展大学生思想政治教育具有重要的指导意义。  关键词: 微信 思想政治教育 挑战 机制  一、微信对大学生开展思想政治教育的