群体水平的英语阅读问题解决能力评估及认知诊断

被引量 : 11次 | 上传用户:az4620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
群体水平的评估有两种思路:一种是先进行个体水平的评估,然后再对个体以求平均或类似的方法间接达到对群体水平的评估。该思路要求群体内的个体完成测验/问卷中的所有题目,以首先实现对个体的评估;另一种思路是不对个体评估,而是直接实现对群体的评估。该思路下群体内的每个个体只需随机作答测验/问卷中的一道(或少许)题目,从而根据群体在每道题上的作答人数及答对人数实现对群体的评估。以上两种思路各有优劣:第一种思路可以同时实现对个体及群体的评估;第二种思路只能实现对群体评估,但它具有第一种思路难以企及的优点,如:减少被试作答的项目数,节省被试作答的时间,提高被试参与调查的配合度,节约人力、物力;避开对个体的评估,避免因中间环节的某个失误,从而造成群体评估失误的事件发生,提高群体评估的效率及效度。目前关于英语阅读问题解决(English reading problem solving,简记ERPS)的群体水平的评估研究很少,研究工作主要在国外,且都在第一种思路下进行,但他们关于ERPS的认知分析研究可能并不适合我国国情。因此本文的主要目的是:一方面结合我国实际,开展群体水平的ERPS能力评估及认知诊断,为促进学生相关认知发展和知识获取提供服务;另一方面,在第二种思路下开发出新的群体水平认知诊断模型,为群体水平的评估及诊断提供一种更为优越的全新方法,以实现方法学上的突破。本文主要由四个研究组成,研究结果如下:第一个研究为ERPS的认知分析。该研究从心理学角度探讨影响ERPS的关键认知因素/认知成分,以Embretson & Wetzel的文本表征--反应决策加工模型为理论基础,分别从‘文本表征(text representation)’和‘反应决策(response decision)’两个认知加工过程来寻找影响ERPS的项目认知特征成分,结合课程专家的分析、我国英语课程标准和测试要求共得到10个认知属性。最后通过对2007年某省英语高考试卷阅读理解部分的项目分析,得到7个认知属性,其中4个属性与‘文本表征’有关,2个属性与‘反应决策’有关,另有1个属性与‘文本表征’和‘反应决策’均有关,研究发现它们能解释难度变异的79.2%,表明它们是影响ERPS的主要认知成分,同时证实它们之间的关系是无结构型的。第二个研究为传统方法下群体水平的ERPS能力评估及认知诊断。该研究在IRT框架下,采用属性阶层模型,先对个体进行能力评估和认知诊断,计算群体内个体能力的平均值和群体内个体对属性的掌握比例(AMR),并将它们分别作为群体能力评估和认知诊断的结果。研究结果表明学校能力总体适中,没有发现能力极端的学校,除属性A5外,学校对其它属性的掌握程度都较好,但仍需要加强对属性A5即推理能力的教学与培养。将学校分为三类分析发现:、省重点建设中学与普通中学之间差异不显著,但这两类学校与省重点中学之间差异显著。若以学校当年英语高考的总平均分数作为效标,计算传统方法下群体水平评估和诊断结果与这一效标的相关系数分别为0.998(P<0.001)和0.836(P<0.001),表明传统方法下群体评估结果具有较高的效标关联效度。第三个研究为群体水平评估新模型的开发。该研究结合2GPLM、RSM和AHM模型开发出了群体水平认知诊断模型—CY_GCDM模型。该模型不仅可以报告出群体的能力和认知状态,还能报告群体对属性的掌握概率,该概率与群体对属性的掌握比例在本质上是一致的;同时研究中还提出了四种新的群体水平认知诊断的判别分类方法(分别记为BUG(A),BUG(B),DB(A),DB(B))。蒙特卡罗模拟研究发现:CY_GCDM模型是可行的,合理的,可解释的。模型中提出的四种新方法都要比贝叶斯判别法好,且这四种新方法都具有较高的诊断精度,它们各有优缺点。具体地讲,距离-相似度判别法中的方法A(DB(A))的判别准确率最不稳定,而距离-相似度判别法中的方法B(DB(B)),相似判别法(BUG(A),BUG(B))相对比较稳定,且判别准确率也较好。从模式判准率来讲,当数据中允许存在的失误概率为0.05时,DB(B)方法最优,而当失误概率为0.1或0.15时,BUG(B)方法则最优。将各判准率指标按权重进行综合发现:当失误概率为0.05时,则DB(B)方法最好,而当失误概率为0.1或0.15时,则BUG(A)方法最好;但总体上讲BUG(A)和DB(B)方法是最好的。第四个研究为新方法下群体水平的ERPS能力评估及认知诊断。该研究在CY_GCDM模型下,采用BUG(A)判别分类方法,实现了ERPS群体水平的能力评估及认知诊断,并将结果与传统方法下的结果相比较。研究发现:新方法与传统方法对群体的评估结果相似,且两方法对群体能力评估结果的相关高达0.957,绝对离差的平均值为0.2318;传统方法下得到的属性掌握比例与新方法下得到的属性掌握概率的平均相关也有0.6939,达到了显著水平,它们之间的绝对离差的平均值为0.157。这些都证明:在实际应用中,新方法可以得到与传统方法相一致的群体评估结果,新方法是可行的、可靠的。不仅如此,新方法中报告的群体认知状态结果与个体诊断的认知状态结果具有较强的一致性。上述研究结果显示:将影响ERPS的主要认知成分归结为本文所确定的7个认知属性不仅是理论可行的,也是统计可行的;在认知分析的基础上,两种评估思路都实现了群体水平的能力评估及认知诊断,它们的评估结果相似,即测验项目都具有较好的项目参数,所有测试学校的能力总体适中,它们对测验所测量的属性掌握程度都较好;两种群体评估思路都是可行的,有效的,且在第二种思路下,CY_GCDM模型的认知诊断精度较高;GIRT模型的参数估计精度与IRT模型一致。当只关注群体评估结果时,新方法较传统方法而言更具有优势,具体而言:(1)新方法大大节省了数据收集和处理的时间、人力和物力。设测验项目数为m,群体内每个个体作答的项目数为k ,则新方法所用的数据量仅为传统方法所使用的数据量的k/m。(2)新方法采用的是矩阵抽样设计,它适用于分析存在缺失的数据,尤其适用于态度问卷,消费心理问卷等易出现无效问卷的数据收集与处理场合,这种数据采集方法增强了问卷调查的灵活性,提高了问卷调查的效率;(3)新开发的认知诊断模型提供的诊断信息丰富,它不仅能够报告群体的能力和认知状态,还能报告群体对属性的掌握概率,无论是学生、家长,还是学校或政府都能够从报告的信息中获得直观而具体的参考信息。
其他文献
中国有着历史悠久的乐舞文化,尤其是各民族的民间舞蹈,更是源远流长,风采各异,构成了中华民族乐舞文化的重要组成部分。山东秧歌便是华夏民族乐舞文化史上公认的一朵绚丽多姿
航空大数据技术在航空飞行器设计、故障预测等方面的应用,为航空领域运行安全提供了保障。文章首先对航空大数据技术的发展现状进行分析,包括其总体架构、数据分析处理技术等
委婉表达是一种重要的社会语言现象,是人们在社会生活中,为了寻求理想的交流效果而创造出来的表现形式。世界各民族语言中普遍存在委婉表达。委婉表达的内容非常丰富,在人们
近20年来,中国互联网发展不断增速,网民规模已超越美国跃居全球第一。随着网络传播对传统传播方式的颠覆,网络事件的影响已经远远超越了网络世界。由于网络传播的特性,网络事
冰雪旅游是冬季旅游的重要组成部分,是以冰雪资源为主要的旅游吸引物,以冰雪文化为内涵,以冰雪观光、冰雪运动、冰雪度假、冰雪节庆、冰雪娱乐等为外在表现形式的体验性旅游
陇东民歌在自身黄土文化的基础上,广泛地吸收了陕北的信天游、陕西西南部的小调、宁夏的花儿等地的音乐精华,从而形成了其高亢、悠扬、清新、质朴的音乐特点。陇东民歌不但长
以可再生资源松香为原料,经与亲二烯体马来酸酐进行加成反应,合成了马来海松酸酐(MPA)环氧树脂固化剂。在一定条件下,对环氧树脂128/MPA体系固化反应进行探讨,对固化产物的力学
垃圾焚烧的主要技术是炉排炉型焚烧技术和流化床型焚烧技术,本文针对这两种焚烧方法所产生的终产物-焚烧灰渣为研究对象,研究并分析了焚烧灰渣的物理、化学、工程特性和力学
目的了解健康教育示范区青少年包虫病相关的知识、态度、行为水平(KABP)情况,并探讨防治知识水平的高低与疫区包虫病高发之间的关系。通过开展多种形式的健康教育,利用“小手
目的:前哨淋巴结活检术(SLNB)已迅速替代腋淋巴结清扫术成为临床腋淋巴结阴性早期乳腺癌患者的标准处理模式。准确、快速的前哨淋巴结(SLN)术中诊断可以使SLN阳性患者通过一