论文部分内容阅读
◆摘 要:为适应我国普通高中学业水平考试部分科目一年多考、考试规模大、考点分布广的特点,我们基于项目反应理论开发了高中学业水平自适应测评系统,可用于实行一年多考科目的客观题部分的日常测试与练习。
◆关键词:高中学业水平;自适应测试;在线考试
新高考制度下,為适应我国普通高中学业水平考试部分科目一年多考、考试规模大、考点分布广的特点,我们基于项目反应理论开发了高中学业水平自适应测评系统,可用于实行一年多考科目的客观题部分的日常测试与练习。以高中信息技术课程为例,以项目反应理论为基础建立题库,根据受测者作答情况自动选择试题,对高中学生信息技术科目的学习情况做出评估。
本系统是依据计算机自适应测验(简称CAT)的相关理论,借助当前使用范围最广的开源软件R语言作为基础开发平台,核心算法采用catR开发而成。系统主要由测试端、管理端和系统帮助三部分构成,下面将就系统架构和系统功能对本系统进行介绍。
一、系统功能
本系统主要包含测试端、管理端和系统帮助三部分。测试端包括测试界面、环境加载程序、能力估计程序、选题策略程序、终止规则程序。管理端包括数据导入程序、数据校验程序、环境生成程序、进度监控程序、结果导出程序。系统帮助包括系统简介、测试部署说明、题库导入说明、环境设置说明、结果导出说明。
上述模块中,测试端主要负责完成CAT测试任务,选题策略程序可根据每一个测试者的能力水平选取“合适”的试题,将测试者的真实水平展现出来。管理端主要针对测验管理人员:测验管理人员将经过严密测试检验的题库导入测试系统,通过指定各种参数,智能化搭建测试端环境;测验管理人员还可以通过管理端进行后台监控,查看当前测试进度,做到全程掌控。系统帮助模块主要为测验管理者使用该系统提供入门向导服务,本系统还有相应的操作视频可供用户参考。
(一)测试端功能
测试端方面,本系统支持多种IRT模型、选题策略和终止规则,基本包含了当前常规基于IRT的CAT测试理论的所有功能。在模型选择方面,本系统支持二级计分和多级计分两种形式的模型,其中,二级计分模型包括单参数、双参数和三参数模型,多级计分模型为等级计分模型;选题策略方面,本系统支持随机选题和基于信息量两大类,其中基于信息量的选题策略主要包括Fisher信息量、KL信息量、极大似然加权信息量等;终止规则支持定长规则(默认20题)、不定长规则(估计误差默认0.3)以及定长和不定长相结合的规则。
(二)管理端功能
管理端方面,本系统支持数据导入、测评部署、测评监控和结果导出四大功能。数据导入包括题库数据导入程序、测试用户导入、数据校验、测试账号生成。测评部署包括生成测试题库环境、生成测试参数环境。测评监控包括测评进度汇总、单人进度查询、题目曝光汇总、单题曝光查询。结果导出包括数据预览、数据下载、报告预览、报告下载。
二、测试流程
按照测试进程,CAT测试通常包含初始阶段、测试阶段、终止阶段和结果报告等四个阶段。
(一)初始阶段
初始阶段需要回答:测试先考哪一道题?如何给被试抽取题目?本系统采取大多数计算机自适应测验的起点办法,在难度适中的试题中随机抽取一道试题。
(二)测试阶段
被试作答第一道题后,系统会根据被试的作答反应(得分)对被试的当前能力进行估计;之后,系统会根据当前能力估计值选出下一题给被试作答,然后再次进行能力估计,估计完成后系统会判断该被试是否满足测验终止条件,如果满足则退出测试,反之则继续作答。
(三)终止阶段
测验终止的标准主要有两种:固定测验长度和不固定测验长度。固定测验长度:考生作答试题数量达到规定的上限,便中止测验;不固定测验长度:以项目最大项目信息量作为选题标准时,测验终止标准是测验信息总量达到指定的标准便终止测验;以贝叶斯估计法作为选题标准时,测验终止标准是估计能力之变异数小到某个预定的标准时终止施测。
本系统采取综合方法,即固定测验长度为30题,同时设置最大信息量为15。
(四)结果报告
考生作答完成规定题量,提交试卷后,测试系统会在几秒钟之内呈现该考生的此次考试成绩和基本分析报告。
三、有待进一步研究的问题
(一)较难考察考生较高层次的认知目标
系统中的主观题也称自由应答型试题,题型包括排列题、改错题、填充题、简答题、应用题、论文题、操作题、发散题、联想题等,主要考察考生的组织材料能力、文字表达能力、综合评价能力、思维创新能力等,但评分容易受到评卷人的主观因素影响。本系统针对高中学业水平考试信息技术科目客观题部分进行了验证,可较好实现在线自适应测评,对于主观题部分,有待进一步研究解决。
(二)较难基于项目反应理论构建题库
题库的建设属于世界性的难题,需要大量的人力、财力和时间保障。在有限的经费和时间约束下,我们只能针对信息技术科目,收集了几百道模拟试题,对知识模块、知识点、区分度、难度、猜测系数、失误系数进行简单估计。自适应考试能否用于大规模考试,主要是看能否基于项目反应理论构建相应科目的试题库,目前条件下我们难以解决题库建设问题,有待进一步深入研究。
参考文献
[1]路鹏.计算机自适应测试若干关键技术研究[D].长春:东北师范大学博士学位论文,2012:5.
[2]杨帆.Web环境下基于IRT的自适应考试系统的研究与实现[D].成都:电子科技大学硕士学位论文,2007:5.
[3]姜火文.基于Web的自适应考试系统的研究与实现[D].成都:电子科技大学硕士学位论文,2006:5.
重庆市教育科学十三五规划2017年度课题:《基于CTT的高中学业水平在线测评系统研究》,编号:2017-00-98。
◆关键词:高中学业水平;自适应测试;在线考试
新高考制度下,為适应我国普通高中学业水平考试部分科目一年多考、考试规模大、考点分布广的特点,我们基于项目反应理论开发了高中学业水平自适应测评系统,可用于实行一年多考科目的客观题部分的日常测试与练习。以高中信息技术课程为例,以项目反应理论为基础建立题库,根据受测者作答情况自动选择试题,对高中学生信息技术科目的学习情况做出评估。
本系统是依据计算机自适应测验(简称CAT)的相关理论,借助当前使用范围最广的开源软件R语言作为基础开发平台,核心算法采用catR开发而成。系统主要由测试端、管理端和系统帮助三部分构成,下面将就系统架构和系统功能对本系统进行介绍。
一、系统功能
本系统主要包含测试端、管理端和系统帮助三部分。测试端包括测试界面、环境加载程序、能力估计程序、选题策略程序、终止规则程序。管理端包括数据导入程序、数据校验程序、环境生成程序、进度监控程序、结果导出程序。系统帮助包括系统简介、测试部署说明、题库导入说明、环境设置说明、结果导出说明。
上述模块中,测试端主要负责完成CAT测试任务,选题策略程序可根据每一个测试者的能力水平选取“合适”的试题,将测试者的真实水平展现出来。管理端主要针对测验管理人员:测验管理人员将经过严密测试检验的题库导入测试系统,通过指定各种参数,智能化搭建测试端环境;测验管理人员还可以通过管理端进行后台监控,查看当前测试进度,做到全程掌控。系统帮助模块主要为测验管理者使用该系统提供入门向导服务,本系统还有相应的操作视频可供用户参考。
(一)测试端功能
测试端方面,本系统支持多种IRT模型、选题策略和终止规则,基本包含了当前常规基于IRT的CAT测试理论的所有功能。在模型选择方面,本系统支持二级计分和多级计分两种形式的模型,其中,二级计分模型包括单参数、双参数和三参数模型,多级计分模型为等级计分模型;选题策略方面,本系统支持随机选题和基于信息量两大类,其中基于信息量的选题策略主要包括Fisher信息量、KL信息量、极大似然加权信息量等;终止规则支持定长规则(默认20题)、不定长规则(估计误差默认0.3)以及定长和不定长相结合的规则。
(二)管理端功能
管理端方面,本系统支持数据导入、测评部署、测评监控和结果导出四大功能。数据导入包括题库数据导入程序、测试用户导入、数据校验、测试账号生成。测评部署包括生成测试题库环境、生成测试参数环境。测评监控包括测评进度汇总、单人进度查询、题目曝光汇总、单题曝光查询。结果导出包括数据预览、数据下载、报告预览、报告下载。
二、测试流程
按照测试进程,CAT测试通常包含初始阶段、测试阶段、终止阶段和结果报告等四个阶段。
(一)初始阶段
初始阶段需要回答:测试先考哪一道题?如何给被试抽取题目?本系统采取大多数计算机自适应测验的起点办法,在难度适中的试题中随机抽取一道试题。
(二)测试阶段
被试作答第一道题后,系统会根据被试的作答反应(得分)对被试的当前能力进行估计;之后,系统会根据当前能力估计值选出下一题给被试作答,然后再次进行能力估计,估计完成后系统会判断该被试是否满足测验终止条件,如果满足则退出测试,反之则继续作答。
(三)终止阶段
测验终止的标准主要有两种:固定测验长度和不固定测验长度。固定测验长度:考生作答试题数量达到规定的上限,便中止测验;不固定测验长度:以项目最大项目信息量作为选题标准时,测验终止标准是测验信息总量达到指定的标准便终止测验;以贝叶斯估计法作为选题标准时,测验终止标准是估计能力之变异数小到某个预定的标准时终止施测。
本系统采取综合方法,即固定测验长度为30题,同时设置最大信息量为15。
(四)结果报告
考生作答完成规定题量,提交试卷后,测试系统会在几秒钟之内呈现该考生的此次考试成绩和基本分析报告。
三、有待进一步研究的问题
(一)较难考察考生较高层次的认知目标
系统中的主观题也称自由应答型试题,题型包括排列题、改错题、填充题、简答题、应用题、论文题、操作题、发散题、联想题等,主要考察考生的组织材料能力、文字表达能力、综合评价能力、思维创新能力等,但评分容易受到评卷人的主观因素影响。本系统针对高中学业水平考试信息技术科目客观题部分进行了验证,可较好实现在线自适应测评,对于主观题部分,有待进一步研究解决。
(二)较难基于项目反应理论构建题库
题库的建设属于世界性的难题,需要大量的人力、财力和时间保障。在有限的经费和时间约束下,我们只能针对信息技术科目,收集了几百道模拟试题,对知识模块、知识点、区分度、难度、猜测系数、失误系数进行简单估计。自适应考试能否用于大规模考试,主要是看能否基于项目反应理论构建相应科目的试题库,目前条件下我们难以解决题库建设问题,有待进一步深入研究。
参考文献
[1]路鹏.计算机自适应测试若干关键技术研究[D].长春:东北师范大学博士学位论文,2012:5.
[2]杨帆.Web环境下基于IRT的自适应考试系统的研究与实现[D].成都:电子科技大学硕士学位论文,2007:5.
[3]姜火文.基于Web的自适应考试系统的研究与实现[D].成都:电子科技大学硕士学位论文,2006:5.
重庆市教育科学十三五规划2017年度课题:《基于CTT的高中学业水平在线测评系统研究》,编号:2017-00-98。