论文部分内容阅读
摘要:GRE (Graduate Record Examination),既美国研究生入学考试,由美国教育考试服务中心 (ETS, Educational Testing Service)承办。美国研究生入学考试旨在评估被测者是否具有在美国或英语国家的大学进行研究生学习的综合能力,并不涉及某领域专业知识。
关键词:GRE考试;类比题;效度分析
前言:整个考试试题分为三部分,包括分析写作,数学部分和语文部分。根据考试指南上说,GRE主要测试考生的文字推理,数学推理,批判性思维和分析能力,可见此考试主要测试长期形成的已内化的认知技能,而在语言方面也是侧重于语言应用能力而不是语言知识。GRE考试的整体效度在其他考试中相对较高,有研究表明学生在研究生一年级的GPA与他们在GRE考试中成绩成正比。(Bridgeman,Burton&Cline, 2008; Burton &Wang, 2005; Powers, 2001; Swinton, 1987; et al)但这并不能证明考题中的每部分都具有较高的效度。而本文就GRE中的类比题型的效度进行了分析和讨论。
一、类比题型介绍
根据GRE官方网站对于类比题的介绍,可定义为“辨析词组中单词的关系并辨析两组词是否存在相同逻辑关系”。以往对于类比题的研究中(Conolly & Wantman, 1964; Heller, 1979; Heller & Pellegrino, 1978)说明被测者解决组织问题的能力是解题的关键,同时还需要六种认知能力才能答好本题。由此我们也能推断出本题考查被测者的问题解决能力和认知处理能力。可也有研究表明类比题的结果与被测者的GPA成绩并无明显关系(Wilson, 1985),更有研究提出类比题中单词难度太大导致效度降低(Duran et al, 1987)。可见类比题存在着一定的争议性,笔者希望通过分析历年试题,对类比题中可能存在的问题加以探讨。
二、类比题中影响效度的问题
1、单词具有多重含义,难以判断关系
类比题中,题干和选项都没有语境,这会导致学生对单词意思理解有偏差。由于很多英语单词都有多重含义,被测者对单词间的关系也会产生多种联想,在没有语境的情况下被测者必须判断出所要考察的是哪一种逻辑关系就显得有些强人所难,评判时第一没有办法判断被测者是否运用了各种认知能力,第二则在确定正误时很难有统一的标准。对于此问题ETS官方也予以承认题目中有时不止一种逻辑关系,并说明要被测者找出“更精确得”关系。这一解释并不能令人满意,如何界定更精确显然存在争议。我们以一道历年考题为例:BODYGUARD: PERSON
A police officer: traffic;B teacher: pupil;C major : city ;D soldier : country;E secretary : office
本题正确答案为D,所考查主被动关系,即“保镖保护人”相当于“士兵保卫国家”。但如果将本题的逻辑关系理解为职业和受益人的关系,那么B选项应该是正确答案,因为选项D受益方是国家而不是人,反而不如B选项更贴近题干。如此可见,如何定义更加精确,如何理解多重关系,这些问题对于类比题的效度都有影响。
2、单词难度大
类比题中考查的单词通常比较生僻,虽有常用单词,但考查的多为熟词僻义。由于GRE考试旨在测评申请研究生学习的学生能力,出现比日常交流更加正式更加专业的词汇也是合理的。但是如果词汇过于艰涩,则会偏离考试测评认知能力的初衷。
曾有研究表明(Heller & Pellegrino, 1978; Rumelhart & Abrahamson, 1973; Duran, Enright & Peirce,1987)如果单词与单词语义上相似和有关联,类比题的正确率大大受影响。也有研究发现(Brunan et al, 1987)被测者选择错误答案多数是因为单词量不够,少数是由于认知策略错误。可见这与设计类比题的初衷有些许偏差。
此外,有些单词或者单词间的关系过于专业。例如一题干为ALBINO: PIGMENT. 二者为因果关系,因为白化病(albino)是由于缺少色素(pigment)而引起的。GRE考试在考生指南中明确说明此考试不涉及任何专业知识,可这道题却让没有足够医学知识的被测者觉得很费解。从另一方面来说也就违背了公平原则。
3、如何定义“概念”
在类比题指南中曾指出被测者应首先分辨单词与概念(concept)之间的关系。但概念本就是模糊难以界定的,里面所包含的文化和社会信息在不同的语境下也有很大区别。以下例子可以说明这一点。PREEN : SELF-SATISFACTION
A fume : anger ;B regret : guilt ;C inhibit : spontaneity;D resent : cooperation
此题正确答案为A,是内心与表现关系,即“得意洋洋是自满的表现”相当于“发怒是生气的表现”。但很多中国学生则选择了B选项。因为在中国文化中,后悔(regret)确实是内疚(guilt)的表现。可在西方文化中这完全是两种不同的感情。
另有一例题干为RECLUSE(隐士): HUMANITY(人性,人道),其中的逻辑关系式缺少关系,即隐士是一群没有人道的人。但在中国文化中,这是完全相反的,隐士是不问名利隐身田园关心人类疾苦的人。可见由于文化和社会环境等因素,单词的概念并不能简单的划分或者辨明对错,这对于不同文化背景的被测者来说存在不公平性。因为这是根据固定的单一的概念来判断学生认知分析能力的高低显然是不合理的。从而类别题的效度也有所降低。 4、逻辑关系和单词固定
根据非官方的数据统计和笔者整理的历年类比试题来看,大约一百多对词组为常考词组,不仅单词没有变化,单词间的逻辑关系也没有变化。这就使类比题有规律可循,被测者可以提前背诵这些常考词组,一些考试机构也可以此总结规律供考生应试。这样会大大削弱了本题目的效度,使旨在考查被测者长期内化的认知技能变成了死记硬背纯单词的记忆。
总之:以上笔者通过总结历年试题,试分析了类比题中存在的种种问题。这都有可能使得类比题的效度有所降低。但由于篇幅有限,无法将所提问题一一加以深入研究论证,望有其他研究分析补充。虽然最新的GRE考题中取消了类比题目,但这仍然是测试学中一种重要的测试方式,这种方式也仍大量运用在其他考试中,所以此类型题目的研究和改进仍然是值得思考的。(作者单位:1.西安邮电大学;2.西安理工大学)
参考文献:
[1]Bridgeman, N. Burton & F. Cline (2008). Understanding What the Numbers Mean: A Straightforward Approach to GRE Predictive Validity. GRE Board Report No. 04-03
[2]Burton.N.W. & M. Wang. (2005). Predicting Long-Term Success in Graduate School: A Collaborative Validity Study. GRE Board Report No. 99-14R
[3]Connolly, J. A., & Wantman, M. J. (1964). An exploration of oral reasoning processes in responding to objective test items. Journal of Educational Measurement, 1, 59-64.
[4]Duran, P Richard, Mary K. Enright Leslie P. Peirce. (1987) GRE verbal analogy items: exaninee reasoning on items. GRE Board Professional Report No. 82-20P
[5]Heller, J. I. (1979). Cognitive processing in verbal analogy solution. Unpublished doctoral dissertation, University of Pittsburgh, PA.
[6]Ward, W. C. (1982). A comparison of free-response and multiple-choice forms of verbal aptitude tests. GREB No. 79-8P. Princeton, NJ: Educational Testing Service.
[7]Wilson, K. (1985). The relationship of GRE General Test item-type part scores to undergraduate grades. GREB No. 81-22P/ETS RR No. 84-38. Princeton, NJ: Educational Testing Service.
[8]李筱菊.语言测试的科学与艺术[M], 湖南教育出版社. (1997).
关键词:GRE考试;类比题;效度分析
前言:整个考试试题分为三部分,包括分析写作,数学部分和语文部分。根据考试指南上说,GRE主要测试考生的文字推理,数学推理,批判性思维和分析能力,可见此考试主要测试长期形成的已内化的认知技能,而在语言方面也是侧重于语言应用能力而不是语言知识。GRE考试的整体效度在其他考试中相对较高,有研究表明学生在研究生一年级的GPA与他们在GRE考试中成绩成正比。(Bridgeman,Burton&Cline, 2008; Burton &Wang, 2005; Powers, 2001; Swinton, 1987; et al)但这并不能证明考题中的每部分都具有较高的效度。而本文就GRE中的类比题型的效度进行了分析和讨论。
一、类比题型介绍
根据GRE官方网站对于类比题的介绍,可定义为“辨析词组中单词的关系并辨析两组词是否存在相同逻辑关系”。以往对于类比题的研究中(Conolly & Wantman, 1964; Heller, 1979; Heller & Pellegrino, 1978)说明被测者解决组织问题的能力是解题的关键,同时还需要六种认知能力才能答好本题。由此我们也能推断出本题考查被测者的问题解决能力和认知处理能力。可也有研究表明类比题的结果与被测者的GPA成绩并无明显关系(Wilson, 1985),更有研究提出类比题中单词难度太大导致效度降低(Duran et al, 1987)。可见类比题存在着一定的争议性,笔者希望通过分析历年试题,对类比题中可能存在的问题加以探讨。
二、类比题中影响效度的问题
1、单词具有多重含义,难以判断关系
类比题中,题干和选项都没有语境,这会导致学生对单词意思理解有偏差。由于很多英语单词都有多重含义,被测者对单词间的关系也会产生多种联想,在没有语境的情况下被测者必须判断出所要考察的是哪一种逻辑关系就显得有些强人所难,评判时第一没有办法判断被测者是否运用了各种认知能力,第二则在确定正误时很难有统一的标准。对于此问题ETS官方也予以承认题目中有时不止一种逻辑关系,并说明要被测者找出“更精确得”关系。这一解释并不能令人满意,如何界定更精确显然存在争议。我们以一道历年考题为例:BODYGUARD: PERSON
A police officer: traffic;B teacher: pupil;C major : city ;D soldier : country;E secretary : office
本题正确答案为D,所考查主被动关系,即“保镖保护人”相当于“士兵保卫国家”。但如果将本题的逻辑关系理解为职业和受益人的关系,那么B选项应该是正确答案,因为选项D受益方是国家而不是人,反而不如B选项更贴近题干。如此可见,如何定义更加精确,如何理解多重关系,这些问题对于类比题的效度都有影响。
2、单词难度大
类比题中考查的单词通常比较生僻,虽有常用单词,但考查的多为熟词僻义。由于GRE考试旨在测评申请研究生学习的学生能力,出现比日常交流更加正式更加专业的词汇也是合理的。但是如果词汇过于艰涩,则会偏离考试测评认知能力的初衷。
曾有研究表明(Heller & Pellegrino, 1978; Rumelhart & Abrahamson, 1973; Duran, Enright & Peirce,1987)如果单词与单词语义上相似和有关联,类比题的正确率大大受影响。也有研究发现(Brunan et al, 1987)被测者选择错误答案多数是因为单词量不够,少数是由于认知策略错误。可见这与设计类比题的初衷有些许偏差。
此外,有些单词或者单词间的关系过于专业。例如一题干为ALBINO: PIGMENT. 二者为因果关系,因为白化病(albino)是由于缺少色素(pigment)而引起的。GRE考试在考生指南中明确说明此考试不涉及任何专业知识,可这道题却让没有足够医学知识的被测者觉得很费解。从另一方面来说也就违背了公平原则。
3、如何定义“概念”
在类比题指南中曾指出被测者应首先分辨单词与概念(concept)之间的关系。但概念本就是模糊难以界定的,里面所包含的文化和社会信息在不同的语境下也有很大区别。以下例子可以说明这一点。PREEN : SELF-SATISFACTION
A fume : anger ;B regret : guilt ;C inhibit : spontaneity;D resent : cooperation
此题正确答案为A,是内心与表现关系,即“得意洋洋是自满的表现”相当于“发怒是生气的表现”。但很多中国学生则选择了B选项。因为在中国文化中,后悔(regret)确实是内疚(guilt)的表现。可在西方文化中这完全是两种不同的感情。
另有一例题干为RECLUSE(隐士): HUMANITY(人性,人道),其中的逻辑关系式缺少关系,即隐士是一群没有人道的人。但在中国文化中,这是完全相反的,隐士是不问名利隐身田园关心人类疾苦的人。可见由于文化和社会环境等因素,单词的概念并不能简单的划分或者辨明对错,这对于不同文化背景的被测者来说存在不公平性。因为这是根据固定的单一的概念来判断学生认知分析能力的高低显然是不合理的。从而类别题的效度也有所降低。 4、逻辑关系和单词固定
根据非官方的数据统计和笔者整理的历年类比试题来看,大约一百多对词组为常考词组,不仅单词没有变化,单词间的逻辑关系也没有变化。这就使类比题有规律可循,被测者可以提前背诵这些常考词组,一些考试机构也可以此总结规律供考生应试。这样会大大削弱了本题目的效度,使旨在考查被测者长期内化的认知技能变成了死记硬背纯单词的记忆。
总之:以上笔者通过总结历年试题,试分析了类比题中存在的种种问题。这都有可能使得类比题的效度有所降低。但由于篇幅有限,无法将所提问题一一加以深入研究论证,望有其他研究分析补充。虽然最新的GRE考题中取消了类比题目,但这仍然是测试学中一种重要的测试方式,这种方式也仍大量运用在其他考试中,所以此类型题目的研究和改进仍然是值得思考的。(作者单位:1.西安邮电大学;2.西安理工大学)
参考文献:
[1]Bridgeman, N. Burton & F. Cline (2008). Understanding What the Numbers Mean: A Straightforward Approach to GRE Predictive Validity. GRE Board Report No. 04-03
[2]Burton.N.W. & M. Wang. (2005). Predicting Long-Term Success in Graduate School: A Collaborative Validity Study. GRE Board Report No. 99-14R
[3]Connolly, J. A., & Wantman, M. J. (1964). An exploration of oral reasoning processes in responding to objective test items. Journal of Educational Measurement, 1, 59-64.
[4]Duran, P Richard, Mary K. Enright Leslie P. Peirce. (1987) GRE verbal analogy items: exaninee reasoning on items. GRE Board Professional Report No. 82-20P
[5]Heller, J. I. (1979). Cognitive processing in verbal analogy solution. Unpublished doctoral dissertation, University of Pittsburgh, PA.
[6]Ward, W. C. (1982). A comparison of free-response and multiple-choice forms of verbal aptitude tests. GREB No. 79-8P. Princeton, NJ: Educational Testing Service.
[7]Wilson, K. (1985). The relationship of GRE General Test item-type part scores to undergraduate grades. GREB No. 81-22P/ETS RR No. 84-38. Princeton, NJ: Educational Testing Service.
[8]李筱菊.语言测试的科学与艺术[M], 湖南教育出版社. (1997).