PETS-5级英语机考的信效度研究

来源 :中国心理学会,中国教育学会 | 被引量 : 0次 | 上传用户:ZF6VE5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  计算机辅助测试有着传统纸笔测试所无法比拟的若干优势,是语言测试的发展趋势.因此,国际上各专业考试机构纷纷投入人力、物力对计算机辅助考试进行研究,陆续推出了若干机考项目,如TOEFL,IELTS,GEE等均用不同形式的机考取代了纸笔考试,而我国此方面研究和实践还较少.本研究以PETS-5级考试为例,在设计并实现机考后,对该考试的信效度等进行了研究,希望能尽早推出我国语言机考项目.研究选取了两个外语院校出国培训班学生共404人,其中男生234人,平均年龄为36.59岁;女生170人,平均年龄为37.69岁.被试在计算机上完成了一套完整的英语测试.试卷由81题构成,包括四部分:听力30题,英语知识运用20题,阅读理解30题,写作1题.写作的存在是为了保障测试内容的完整性,考虑到写作存在较大的评分误差,不列入研究内容.测试结束后,通过在线问卷调查的形式调查了被试对该测试采用机考形式的感受与意见.研究者同时搜集了考生一周后参加PETS-5级英语纸笔考试的考试成绩.
其他文献
类比推理能力是智力的重要组成部分,图形类比推理测验因不受文化等外在因素的影响,一直被认知测验和智力测验广泛采用,其经典类比范式由三个题干项(A:B∷C:) 和若干选择项Di (标准形式)组成。传统的类比推理测验研究中,认知属性的分类以及变换的规则都较为简单,并将旋转和翻转这两种认知属性作为影响测验项目难度的主要因素,但是旋转和翻转更多地体现了心理旋转能力且存在性别差异,这对类比推理测验的效度有一定
移动互联网的兴盛(截止2015年底,我国手机网民达62亿)令方兴未艾的电子商务再次波澜汹涌,据《中国互联网络发展状况统计报告(2016年1月)》数据显示,移动移动应用(Application, 简称APP)的领跑者正是商务交易类。但是移动电商(Mobile Commerce)从终端尺寸、交互方式和技术创新等方面极大地挑战着传统的电子商务下的既有设计模式,主要表现为单页信息承载力下降、移动消费习惯来
随着互联网的发展、移动终端设备的普及,其作为新兴的工具平台被更多应用于心理测试和测评。许多的心理测评网站及APP应用的开发,使得许多的团体和大量的人群能够应用互联网及移动设备终端进行各门各类的心理测试测评。相比于传统的纸笔测验,互联网及移动终端平台的心理测评有着其自身独特的优势优点:第一是心理测验测评的耗费,传统的心理测验和测评往往是通过纸笔测验来获取一定的信息,实施纸笔测验的程序虽然并不复杂,但
情緒詞的分析,在心理學中的應用很廣(Kiefer, Schuch,Schenck,&Fiedler,2007;St-Hilaire, Cohen,&Docherty, 2008;Van Hooff, Dietz, Sharma,&Bowman,2008).過去為了深入及廣泛地探討情緒詞,國內外已建立數個情緒詞刺激資料庫(例如:卓淑玲、陳學志、鄭昭明,2013;陳學志、詹雨臻、馮彥茹,2013;Br
過去研究指出遊戲式學習可以增加學習動機和專注度、提高學習成就、幫助建立抽象思考與發展高程度認知能力、對學生發展認知與社會歷程有很大的影響,而這些優勢造就了一股遊戲式學習風潮。而近年來,科技蓬勃發展,個人隨身行動載具已相當普遍,遊戲式學習也已不限定在室內以靜態方式進行,而是能夠融入生活中,並可隨時隨地的進行遊戲式學習。空間能力是日常生活中非常重要的能力,例如:工程學、數學、方向感。空間能力越高的人,
新课程改革背景下,中考采用两试合一,中考考试结果以等级形式呈现,并用于毕业和升学等重要决策(教育部,2005)。中考成绩的呈现,涉及标准设定,标准设定的质量对中考质量具有重要影响,而标准设定的信效度是标准设定质量的重要指标。标准设定的方法是影响标准设定质量的重要因素,不同标准设定方法产生不同的结果(Hambleton,1998;Jaeger, 1991;Linn,1998)。目前我国中考实践中常采
怕被笑係指個體因害怕被嘲笑而產生恐懼或焦慮的情緒,雖然大多數人都不喜歡被他人嘲弄,並容易因此產生憤怒、難過、焦慮的情緒.但即使遭到他人嘲笑,多數人仍可妥善處理被嘲笑的情境.然而,怕被笑者卻無法區分嬉笑與嘲笑,並認為所有笑聲皆具攻擊性,擔心自己的行為受到他人檢視,致使產生社交退縮、低自尊、缺乏幽默感的症狀.實徵研究顯示怕被笑與使用正向幽默風格的傾向呈現負相關,與外向性、友善性、情緒穩定性與開放性等人
预算与成本是进行测量研究时不可忽略的问题之一。研究者在设计研究程序过程中,需要考虑如何在预算限制下找到一个可行性相对较高且测量可靠性最高的测量程序。一般来说,进行测量时,所取样本量越大,误差越小,测量可靠性越高。但是,由于样本量增加,测量费用也随之增加,这是一个两难问题。因此,研究者要在预算限制下使测量可靠性最佳,需要通过某些途径获得最合适的样本量大小。在预算限制下,找到测量研究中最经济的样本量大
随着我国教育改革的不断深化与推进,培养学生的核心素养成为教育改革的新方向。核心素养在不同的学科上有不同的表现形式,具体到某个学科上,核心素养主要是指该学科所需要的必要技能或能力。评价和监测学生对所需技能或能力的掌握情况,离不开认知诊断理论的应用。在实际认知诊断测验完成后,一般要随机抽取一部分被试进行回访,以检验利用认知诊断理论推断出的被试的知识状态是否准确。如果回访时间距离测验时间太久,被试的学习
学业质量监测是基础教育质量评价的重要组成部分,国家课程标准是学业质量监测的根本依据,学业质量监测是否能够体现课程标准的主旨精神对于教育质量评价方向与结果具有重要影响.研究借鉴国际韦伯模式、Achieve模式和SEC模式分析框架,结合国内实际教育教学状况,开发本土化一致性分析模式,编制研究工具,包括试卷内容评定问卷和试题内容评定表.其中前者从试卷的整体角度,通过命制思想与依据、试卷结构、试题评价、试