论文部分内容阅读
从语言测试与评估的发展阶段来看,当前语言测试的研究重点已从分离测试转向行为测试(Grabe&Kaplan 1996;Hamp-Lyons 2001),综合写作任务则是行为测试的一个典范。较之传统的独立写作任务,综合写作任务提供了有意义的语言背景(Lee&Anderson 2007),即写作提示,其形式一般为听力提示、阅读提示或两者兼有,因而更具真实性(Cumming et al.2000)和公平性(Weigle 2004),能够真实有效地测量考生的写作能力,即综合写作任务更符合现实生活中的听、读、写相结合的写作任务,且综合写作中提供了均等的背景信息以供考生参考。针对此类背景提示,国内外许多研究就其固有特征展开,如从提示特征对综合写作测试得分影响的角度进行探讨(如 Lee 2004;Lee&Anderson 2007;Wiseman 2012),但未能取得共识;亦有从提示特征对综合写作文本的影响角度进行探讨(如Cumming et al.2005;Kormos 2011;Plakans&Gebril2012),但较囿于表层文本特征。然而,因提示特征并非其本身固有的属性,尤其是试题难度,需参考参加考试的不同考生的能力(Bachman 2002),可引入考生视角以明确提示的认知维度特征,但相关研究较少且结果迥异(如 Powers&Fowles 1998;Cho,Rijmen&Novak 2013)。此外,评分员对写作测试效度的作用也不容小觑,写作的评分效度往往受评分员的认知与态度差异影响,也受写作评分培训影响(Hamp-Lyons 1991),许多研究围绕评分员的评分行为进行探讨(如 Milanovic,Saville&Shenl996;Weiglel999;Cumming et al.2002;Lumley 2006;Baker 2010;Knoch 2011;Lim 2011;Winke&Lim 2015;Zhang 2016),但并未涉及综合写作中评分员对提示特征的认知差异。综上,提示特征不仅涉及其本身固有的特征,还涉及考生与评分员的认知维度特征。然而,已有的国内外研究尚未涵括三个维度的提示特征及其对综合写作测试的影响;对国内新兴的综合写作测试而言,有关提示特征的研究则几乎是空白。因此,本研究希望涵括这三个维度的提示特征,考查提示特征对综合写作测试的影响,以提高综合写作测试的效度。结合文献回顾与中国语言测试实践,本研究针对新近推出的"外研社杯"全国英语写作大赛的议论文综合写作任务展开研究,对该写作任务进行效度验证,将提示特征定义为三个维度(提示固有特征维度、考生认知维度、评分员认知维度),旨在考查不同维度的提示特征对考生写作表现和评分员评分决策的影响。其中提示固有特征维度指提示本身所固有的特征,包括话题域、任务说明等;考生认知维度指基于考生认知的提示特征,包括考生所认知的提示难易度、熟悉度、趣味度、表达欲、有用性等;评分员认知维度指基于评分员认知的提示特征,包括评分员所认知的提示难易度、熟悉度、趣味度、有用性等,以及评分员在此认知下的评分关注点。鉴于此,本研究旨在回答以下三个层面的问题:1)提示固有特征对综合写作表现的影响研究,即提示固有特征是否会对综合写作任务的文本特征产生影响?若存在影响,不同提示下的文本特征差异体现在哪些方面?2)基于考生认知的提示特征对综合写作表现的影响研究,即基于考生认知的提示特征是否会对其写作表现产生影响?若存在影响,具体是哪些考生认知的提示特征,影响程度如何?3)基于评分员认知的提示特征对综合写作评分的影响研究,即基于评分员认知的提示特征是否会对其评分产生影响?若存在影响,具体是怎样的影响?本研究的效度验证框架采用Bachman&Palmer(2010)的"评估使用论证"(Assessment Use Argument,简称 AUA)框架和 Toulmin(1958/2003)的论证框架,所要论证的是AUA框架中考生表现与评估记录/分数的评价过程以及基于评估记录所作出的有关考生语言能力的解释,具体为提示因素与考生综合写作表现及评分信度的关系,主要涉及AUA框架中评估记录/分数的一致性(consistency)和语言能力解释富有意义(meaningfulness),旨在系统地验证综合写作任务的测试效度。本研究根据三个不同层面的研究问题进行数据收集,所用实验数据来自2013年和2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考作文与得分,以及2014年实考后考生与评分员的即时问卷调查。参赛考生为全国各高校的在校本科生,专业不限;评分员为英语写作教学经验丰富的中外籍英语教师。根据不同研究问题采用不同的数据收集与分析处理方法。针对第一个研究问题,所用数据来自2013年和2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考作文与得分,数据覆盖20多个省、市、自治区(其中2013年为26个,2014年为29个),涉及8个提示,共1354篇作文。考虑到语料中的拼写错误等因素,所用评分为大赛的人工评阅平均分,每篇文章均有2-3位具有丰富阅卷经验的中外籍评委进行分项评分,最终取其综合后的平均分,以保证评分信度。同时依据专家判断和方差分析,提取提示固有特征,将其分为话题域(包括社会、教育、商业和个人话题)和任务说明(包括显性和隐性对立观点说明);并用最新的自然语言处理工具Coh-Metrix 3.0,提取108项表层和深层的量化文本特征指标。因此,本研究分析的数据包括考生在综合写作任务中的平均得分、提示固有特征和各文本特征指标,数据分析工具为SPSS 18.0。对提示固有特征下写作得分与文本特征的回归分析显示,不同提示固有特征会不同程度地影响考生的综合写作任务表现,具体如下:第一,不同话题域的写作提示使文本显现出不同的文本特征影响因素。在各文本特征中,词数是共有的文本特征,这是保证议论文充分论证的基础。其他不同的文本特征表明不同话题下作文文本中的语言表达有所不同:社会话题提示下的文本显现了实词熟悉度、词汇最小编辑距离和连词使用频率等文本特征;教育话题提示下的文本显现了实词习得顺序、动词重叠率、LSA(潜伏语义分析)段落间语义承袭性、词汇多样性和时间连接词使用频率等文本特征;商业话题提示下的文本显现了实词句间重叠率、实词熟悉度和介词短语密度等文本特征;个人话题提示下的文本则显现了词汇多样性和句间词干重叠率等文本特征。第二,不同任务说明导致考生在写作中采用不同的论证模式。不同任务说明的提示特征下,各文本具有两项相似的文本特征,即词数和词汇多样性,两者是影响议论文的观点得到多角度充分论证的主要因素。虽然前者在评分细则中并未明确涉及,但这表明词数是议论文充分论证的基础,而词汇多样性又是多方面、多角度论证的必然结果。就不同的文本特征而言,显性对立观点的提示中,实词习得顺序和LSA段落间语义承袭性具有重要影响;而隐性对立观点的提示中,文本叙述性、动词重叠率和实词句间重叠率具有突出影响。以上文本差异主要源于提示的任务说明差异,即显性对立观点的提示引导考生在议论文写作中从单一角度或多角度进行观点论证,而隐性对立观点的提示则引导考生在议论文写作中运用事例叙述和观点进行论证。在效度验证方面,定量分析结果表明不同提示影响下所显现的不同文本特征反映了考生的英语写作能力,符合综合写作测试的构念效度。具体而言,该研究问题聚焦于"评估使用论证"框架中有关语言能力解释应该富有意义,即议论文综合写作测试所测量的构念是考生的语言能力。主要的理据是在提示固有特征的影响下,影响考生写作得分的文本特征均包括在所测构念的范围之内,提示固有特征的影响并非"构念无关因素",不构成反驳。针对第二个研究问题,所用数据来自2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考得分和考生的考后即时问卷。如前所述,本研究将综合写作任务的人工评阅平均分作为考生的综合写作表现;因省级复赛要求考生在规定时间内同时完成一篇议论文综合写作和一篇说明文写作,两者具有共时性,因此在本研究中将考生在说明文写作上的人工评阅平均分作为考生的英语语言能力。此外,考生问卷采用李克特五级量表,要求考生判断各提示特征描述与自己实际情况的符合程度,旨在探知考生认知的综合写作提示特征,如考生所认知的提示难易度、熟悉度、趣味度、表达欲、有用性等,共10个问题。问题设计参考已有的考生访谈和问卷调查(如 Polio&Glew 1996;Powers&Fowles 1998;Cho,Rijmen&Novak 2013;Li 2014),并根据本研究实际进行改编,再经专家评判和小范围试测后进行修正,在此基础上确定最终问卷版本。来自13个省、市、自治区的371名高校考生提供了有效问卷,分属3个提示。因此,本研究分析的数据包括考生的综合写作表现、考生的英语语言能力和考生认知的提示特征。因数据具有层次结构的特点,即考生嵌套于地区,而不同地区采用不同提示,本研究采用多层线性模型(multilevel linear modeling,简称MLM)以检验多个层次间的相互关系。在MLM分析结果的基础上,采用结构方程模型(structural equation modeling,简称SEM)更清晰准确地验证了各层次间的相互关系。数据分析工具为SPSS 18.0和AMOS 20.0。通过MLM和SEM模拟考生语言能力、考生认知的提示特征与考生综合写作表现之间的关系,发现英语语言能力是影响考生综合写作表现的主要因素,而考生所认知的提示特征对其综合写作表现的影响则较为复杂微妙,具体简述如下。多层线性模型分析显示:1)不同地区采用不同提示的情况下,考生的综合写作得分并无显著差异;2)考生认知的各个提示特征和综合写作得分及各个分项得分(内容、结构、语言)之间不存在显著关系。如上两项发现表明提示的地区差异可忽略不计,可将提示视为一个统一概念(即概化为统一的提示及其考生认知的提示特征)。采用探索性因子分析提取出3个考生所认知的提示特征的高阶特征因子,即提示知识(Prompt Knowledge)、提示难度(Prompt Difficulty)、提示认同(Prompt Identification)。进一步的多层线性模型分析结果表明:1)英语语言能力是影响考生综合写作得分的主要因素;2)考生认知的提示知识对综合写作得分具有显著影响。结构方程模型分析显示:在反复验证与修正基础上确立的最终模型拟合指数较好(χ2(41)=80.594,SRMR=0.470,RMSEA=.051,CFI=.973,TLI=.963)。该模型清晰地模拟了考生认知的提示特征与综合写作表现之间的影响关系,具体如下:考生认知的提示知识有助于提升其综合写作表现,而考生认知的提示难度阻碍其综合写作水平的发挥;提示知识虽有显著正面影响,但力度偏弱(β=.22,p<.05),而提示难度的负面影响则力度更弱,几乎不显著(β=-.15,p>.05),两者之间存在良性互动关系(β=.48),即考生认知的提示知识会中和其认知的提示难度的负面影响,并最终直接影响其综合写作表现。在效度验证方面,定量分析结果表明考生认知的提示特征对其综合写作表现的影响相对复杂微妙,而英语语言能力是决定考生综合写作表现的关键因素,符合综合写作测试的构念效度。具体而言,该研究问题主要观察"评估使用论证"框架中有关语言能力解释富有意义这一主张,即综合写作测试的构念是测量考生的语言能力。主要的理据是综合写作任务让考生展现了其英语语言能力,测试结果可以用来推断考生的语言能力。主要的反驳是考生认知的提示知识属于"构念无关因素",但因其影响微弱,对构念效度影响较小,说明反驳不成立。针对第三个研究问题,所用数据来自2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考评分和评分员的即时问卷。评分员的问卷设计与考生问卷相类似,参考以往研究(Hamp-Lyons&Mathias 1994;ffeigle 1999;Wiseman 2012;Trace,Janssen&Meier 2015),并结合专家判断和小规模试测,确定最终的问卷版本。该问卷采用李克特五级量表,要求评分员提供他们对各提示特征的态度或观点,旨在探知评分员认知的综合写作提示特征,如评分员所认知的提示难易度、熟悉度、趣味度、有用性等,共6个问题;另附上评分员对评分关注点的评价或看法,涉及内容、结构、语言、提示使用(source use)等四个方面,共19个问题,目的在于佐证评分员的评分表现。来自10个省、市、自治区的30名评分员提供了有效问卷。同时使用多层面Rasch模型(multi-faceted Rasch measurement,简称MFRM)分析这30名评分员在综合写作评分中的实际评分表现,涉及评分员严厉度、评分难易度、评分员与考生偏差交互。数据分析工具为SPSS 18.0和 FACETS 3.71.3。通过多层面Rasch模型测量评分员的评分表现,结合系其认知的提示特征,发现评分员认知的提示特征会不同程度地影响其评分表现,具体如下:第一,评分员对提示特征的不同认知会影响其评分严厉度。依据MFRM的评分员严厉度分析,将评分员分为宽松和严厉两个等级,采用二元逻辑回归分析,探索影响评分员严厉度的提示认知因素,结果发现两者关系虽不具有统计学意义上的显著性,但存在一定的趋向性。具体表现在:1)评分员认为提示越难或对提示越感兴趣,评分越宽松,反之亦然;2)评分员认为提示越熟悉或越清晰或越有用,评分就越严厉,反之亦然。第二,评分员对提示难度的不同认知会影响其对内容标准评判的严厉度。根据MFRM统计的评分难易度,结合评分员对评分关注点和提示特征的认知调查,定性探讨两两之间的可能联系。首先,MFRM的分析结果表明评分员在实际评分操作中对评分标准评判的难易度由难/严到易/松的顺序依次是内容、结构、语言。其次,对评分员的认知调查表明评分员对评分标准重要性评判的排序依次是内容、结构、语言、提示使用;与MFRM的分析结果相呼应,说明评分员在评分标准的评判上受一定认知影响,即评分员认为某评分标准越重要,评分越严厉,反之亦然。基于如上分析,结合评分员认知的提示特征,推断评分员认为提示越难,对内容标准的评判越严厉,反之亦然。第三,评分员对提示特征的认知使得评分员对不同水平考生的评判出现偏差。MFRM的评分员与考生的交互分析显示,评分员在评判不同能力值的考生时呈现出显著的偏差交互模式:1)评分员对高水平考生的评分出现偏差比例高于对低水平考生的评分;2)严厉的评分员比宽松的评分员出现更多偏差;3)严厉的评分员对高水平及较高水平考生评分偏严,宽松的评分员对低水平及较低水平考生评分偏松;4)在对较高水平和较低水平考生进行评分时,严厉的评分员比宽松的评分员出现更多偏差。以上偏差模式可能与评分员对提示特征的认知有关。基于上述提示认知与评分松严度的趋向性关系,引入评分期望作为中介变量以合理解释其中联系,即评分员认为提示越容易,对考生期望越高,则评分越严厉,更易低估考生水平;反之,评分员认为提示越难,对考生期望越低,则评分越宽松,更易高估考生水平。在提示认知影响下,严厉的评分员对高水平及较高水平的考生期望偏高,更易给出较低的评分;而宽松的评分员对低水平及较低水平的考生期望偏低,更易给出较高的评分,而总体上因为写作大赛省级复赛中以高水平考生为多,且评分员中偏严厉人员(18)多于偏宽松人员(12),严厉的评分员比宽松的评分员有更多偏差,尤其是对高水平的考生群体。在效度验证方面,如上分析表明评分员认知的提示特征对其评分决策的影响较为微潜,其认知-偏差关系属于趋向性影响,并不具有统计学上的显著性,因此符合综合写作测试的评分效度。具体而言,该研究问题主要涉及"评估使用论证"框架中评估分数的一致性,即综合写作测试的评分不受评分员认知的提示特征影响,具有较高信度。主要的理据是评分员认知的提示特征的影响力较为微弱,几乎不影响其评分决策,这说明从评分员认知的提示特征角度来看,评分员的评分具有一致性。综上所述,本研究考查了不同维度的提示特征对考生的综合写作表现和评分员评分决策的影响,涉及提示固有特征维度、提示的考生认知维度和评分员认知维度,填补了国内外综合写作测试领域的研究不足,其研究发现在理论、方法和实践上均具有一定的启示意义。从理论层面而言,本研究首次运用"评估使用论证"框架对大规模赛事中综合写作任务进行较为系统的效度验证,从评分与分数解释环节入手,论证了评分与基于测试分数的解释具有一致性并富有意义,有利于推动基于论据的效度验证模型在语言测试领域的广泛应用。从研究方法而言,本研究采用不同定量研究方法并结合定性探讨来分析研究结果,为全方位了解提示特征与考生写作表现及评分员评分决策的关系提供了充分的实证依据,也为大规模语言测试的效度验证提供了方法参考。此外,本研究对综合写作测试的任务设计、教学、评分和自动评分具有一定的启示:第一,通过将提示影响具体化,明确了不同提示特征对写作表现和评分决策的影响,有利于试题设计人员在编写试题时规避考试偏颇,尽可能地弱化提示影响,也为评分标准的制定提供新的参考。第二,通过揭示提示特征与文本特征之间的关系、考生认知的提示特征与其写作表现之间的关系,有望为教师选材与教学提供新的启示,但并非趋利避害,而是因材施教,旨在有效地提高考生的写作水平。第三,通过评分员层面、评分量表层面及其交互作用来评估评分员表现,发现评分员认知的提示特征与其评分偏颇之间的联系,有利于加强评分员培训,避免评分偏颇。第四,基于提示固有特征与文本显现的联系、考生/评分员与提示的认知互动,有望为不同维度提示特征下的评分模型提供新的启示;现有自动评分研究主要以写作文本特征为参数(如 Attali 2007;Knoch 2009;Sawaki,Quinlan&Lee 2013),而鲜有对不同提示固有特征下的文本特征、考生与评分员的认知加以考查,从而忽视了这三者在综合写作任务结果解读中的交互作用。然而,本研究仍有一定的局限性,具体表现在以下六个方面:第一,本研究所用的考生样本与综合写作任务均具有一定的局限性,其中考生总体偏好,为全国各高校选拔参加省赛的选手;综合写作任务则局限于议论文文体,其提示固有特征仅涉及话题域和任务说明两个类别,也限于实考数据(即省级复赛中各省自主开展写作大赛)未能涉及各个写作任务的提示难度,从而使得结果的概推性受到影响。第二,本研究未将拼写错误纳入文本特征,原因是Coh-Metrix软件只能识别拼写正确的单词,未来研究可包括拼写错误以更全面地探讨文本特征。第三,本研究未涉及综合写作中的提示使用问题,而提示使用是综合写作测试中必不可少的一部分,未来研究可探讨考生对提示的理解与使用。第四,本研究中评分员认知的提示特征受条件限制,仅涉及30名评分员,未来研究可考虑增加样本数量,或许会有更进一步的发现。第五,本研究主要采用定量方法对大样本进行分析,未采用定性方法,未来研究可采用多种定性方法对考生的写作过程和评分员的评分过程进行分析,从而更好地探讨提示特征的影响。第六,本研究利用多层面Rasch模型分析评分员差异,评分员认知的提示特征可在一定程度上解释该差异,有必要对其他导致差异的原因进行探索,以期对改进评分员培训方法和提高评分信度提供实证证据与有效反馈。