客观结构化临床考试中标准化病人评分效应的初步研究

被引量 : 0次 | 上传用户:sunchaoemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
前言客观结构化临床考试(Objective Structured Clinical Examination, OSCE)是目前国际公认的评价临床能力最好的方法,被国内外很多医学院校广泛的用于临床能力的评估,一些国家将其应用于医师资格准入考试中。OSCE包括标准化病人(Standardized Patients, SP)考站,其信度和效度受由其组成部分(病例、标准化病人、评价量表等)所引起的多种潜在测量误差的影响,包括不适当的病例内容,SP在病例中不准确、不稳定的模拟及SP作为评分者引起的各种评分者误差(Rater Effect)等。评分者效应,又称评分者误差(Rater Error),是评分者在使用评价量表进行测评时所产生的误差,包括评分者宽容效应、评分者不一致性以及评分者偏差等。随着OSCE的广泛应用,越来越多的学者尝试运用现代教育测量学的方法,分析影响OSCE的潜在测量误差。项目反应理论中的多面Rasch模型(Many Facets Rasch Model, MFRM)能够对标准化病人侧面、考生侧面、题目侧面进行分析,剔除评分过程中的主观因素,在主观评分的客观化分析中具有广泛的应用前景。本研究拟将多面Rasch模型引入OSCE中,将考生、标准化病人,题目难度作为侧面,估计考生临床能力,分析标准化病人评分的评分员误差以及评价量表的应用情况等,为OSCE原始成绩的应用、标准化病人的培训、评价量表的使用、OSCE的质量控制提供科学依据。资料来源与研究方法本研究以参加中国医科大学2009届五年制本科临床医学专业毕业考试中客观结构化临床考试评价的标准化病人为研究对象,并且参加此次考试的考生同为研究对象。考试于2009年5月11日至5月22日在中国医科大学附属第一医院临床技能培训中心进行。参加评价的标准化病人共23人,其中男7人,女16人;参加考试的五年制临床医学本科毕业生共352人,其中男154人,女198人。运用FACETS3.64.0编写语句创建多面Rasch模型,对考试数据进行分析。结果一、数据与模型拟合度数据与模型拟合较好。二、MFRM总体分析结果最严格的标准化病人为SP21,最宽松的标准化病人为SP27;交流能力测试题最难的题目为第9题是否解释做体格检查的原因,明确解释发现的体征及得出的结论,最简单的题目为第1、2题,考生是否友好的与标准化病人交流,以及是否有礼貌的对待标准化病人。三、对标准化病人侧面的分析(一)标准化病人评分宽严程度的MFRM分析结果SP21的宽严程度值是0.74 logits (SE=0.03),是最严格的标准化病人,SP27的宽严程度值是-1.351ogits (SE=0.04),是最宽松的标准化病人。标准化病人之间在宽严程度上存在很大差异。OSCE的管理者可以根据准化病人评分的宽严特点安排标准化病人的分组,将宽松的标准化病人与严格的标准化病人安排到同一组,以均衡标准化病人的宽严程度,减少其对考生原始成绩的影响,使得原始分数更接近于考生的真实值。(二)标准化病人评分整体自身一致性的MFRM分析结果23个标准化病人infit值域为0.5~4.16,其中SP10、SP33、SP31的infit值分别为4.16、1.9、1.52,infit值大于1.5,属于自身一致性较差的标准化病人;SP24、SP8、SP15的infit值等于0.5属于自身过于一致的标准化病人;其他标准化病人infit值均在0.5~1.5之间,自身一致性较好。1、评分自身一致性较差的标准化病人以SP10和SP33为例,根据FACETS提供的misfitting评分表进一步了解评分不一致的根源,即SP10、SP33究竟是在对哪个考生的哪道题目评分时出现了哪种性质的不一致的评定结果。(1)标准化病人10。SP10在对题目4评分时,给出超过模型预期值两个标准差以外的异常分数40个,在评价题目8时,给出超过模型预期值两个标准差以外的异常分数36个。由此可推断SP10对评价量表第4题和第8题的理解不好,不能应用此题目准确的评价考生的能力,为考试的准确性带来了影响。(2)标准化病人33。例如,SP33在对259号考生第10题的表现评分时,给出了0分,但是按照该标准化病人自身的宽严程度,对于这个能力水平的考生,模型期望SP33对此考生此题目评分2.7分,实际评分与模型期望分之间偏离了3.6个标准差,属于一个异常的评分结果。2、评分过于一致的标准化病人标准化病人24,8,15的infit值均为0.5,均评价了90名考生,但是三位标准化病人很少使用等级0和等级4,大部分评定使用等级1,2,3,呈现了趋中效应。四、对考生侧面的分析352名考生的交流能力估计值范围为:-1.1~1.13logits,全距为2.24logits,其中能力最高的考生为156号,能力值为1.1 logits (SE=0.17),能力最低的考生为268号,能力值为-1.13 logits (SE=0.13)。以标准化病人评分较为一致的146号考生以及标准化病人评分争议性最大的121号考生为例,对121号考生评价的6个标准化病人中,有5位偏差分为负数。五、对题目侧面的分析交流能力测试题最难的题目为第9题是否解释做体格检查的原因,明确解释发现的体征及得出的结论,最简单的题目为第1、2题,考生是否友好的与标准化病人交流,以及是否有礼貌的对待标准化病人。结论1.总体来说,本次考试难度适中,RUCIS量表适合评价本研究中临床医学本科毕业生交流能力。2.标准化病人评分宽严程度差别较大。可以根据标准化病人的宽严程度考虑将较为严格的标准化病人与较为宽松的标准化病人搭配在同一个考试组以增加考试的公平性。3.个别标准化病人需加强其在评分等级以及评价量表中个别题目的理解上的训练。4.评价量表中个别难度较大的题目需要改进,标准化病人理解不好的题目表述需要改进。
其他文献
随着人们对乳腺癌的认识的不断深入,它作为一种全身性疾病已经得到大家的共识。此外,由于辅助治疗方法的完善,对于早期乳腺癌患者保乳手术已经作为一种标准术式得到大家的认
水泥生产过程中耗电最大的工艺环节是水泥粉磨,粉磨过程能量消耗高且利用率低,大约80%以上的能量被浪费。为了降低生产成本,提高粉磨效率,近年来水泥生产企业采取了许多节能
冷热电联产系统是一种建立在能量梯级利用基础上的总能系统,它能提高能源的综合利用效率,同时具有较好的经济性和节能性。但是系统的经济性和节能性在很大程度上与系统运行优
类型或其因素,同样致力于创新,但目的各异,追求不同。这就如同科波拉是《现代启示录》的作者,也是《教父》的“体制中的作者”的两重身份。除了科波拉之外,卓别林、希区柯克
随着信息技术的高速发展,网络用户大量增加和多种IP新业务的出现,IP骨干网面临着频繁升级和扩容的压力,核心路由器容量的可扩展性成为网络发展的瓶颈。可扩展的高性能IP地址
单纯应用虚拟实验演示实验现象,容易使学生处于对知识浅层性的理解状态,难以获得认知和应用能力的双重提高。在虚拟演示实验中,创设生动的映射真实世界问题的情境,不仅有利于
高速铁路简支箱梁预制过程中,由于简支箱梁局部尺寸大,造成箱梁梁体温度过高、降温速率十分缓慢、箱梁混凝土内外温差过大等问题,严重影响了箱梁的施工质量和工程进度。针对
自高校进入大众化教育阶段以来,招生人数和毕业人数迅猛增加成为了一种现实,由此引发了一系列的问题,其中高校学生就业问题已经成为了国家和全社会关注的热点话题。本文基于
日前,广东省知识产权研究与发展中心与广东中策知识产权研究.院联合发布了“2016年度广东省企业专利创新百强榜”(下称“百强榜”),东莞10家企业榜上有名,长安镇则有5家企业上
本文从对华建公司西安市场营销失败的研究中找寻其失败的深层原因,分析其所面对的内外部环境,提出相应的对策,以避免后来者出现同样的命运,供现有企业经营管理者借鉴。企业市