论文部分内容阅读
摘要:基于中国大学MOOC平台上《翻转课堂教学法》MOOC中17204名学习者的行为日志数据,在为学习者的页面访问记录赋予有意义的行为编码标签,建立其学习路径模型后,使用统计和共现分析的方法,研究其中优秀学习者的学习行为模式特点。研究发现,优秀学习者总行为序列长度显著高于其他学习者,上线学习的次数显著地多于其他学习者;但是每次上线学习发生的有意义的交互行为的数量与其他学习者相仿,学习时长也相仿;其参与和回答教师的提问、复习已学过的内容、参与论坛互动的行为在其总学习行为中占比更多,而学习全新内容、参与测验、把握全局等行为的占比较少。研究用共现分析的方法分析了学习者每次上线产生的行为之间的共现关系,发现优秀的慕课学习者在学习新内容时更少发生走神和中断的情况,且其每次上线的目的更鲜明,学习主题更突出。研究的发现揭示了优秀慕课学习者学习行为模式的特征,有助于改进慕课教学。此外,共现分析的方法也为行为数据的挖掘提供了新的思路。
关键词:慕课;行为模式;学习路径;共现分析
中图分类号:G434 文献标识码:A
一、引言
慕课这一概念自2008年提出至今,已经经历了10年的发展,在线开放课程已经成为如今教育的重要一部分。教育部在《2018年教育信息化和网络安全工作要点》中强调要形成国家教育资源公共服务体系,认定第二批国家精品在线开放课程(MOOC)500门以上,体现了在线开放课程正在逐步融入主流、常态的高等教育体系。在慕课发展的过程中,如何提升慕课的教学质量向来是研究的焦点。
目前,对于“如何提升慕课教学质量”的回答主要集中于两方面。一方面从政策建议入手,以教学系统的制度变革等手段在宏观上来推进慕课教学质量的提升;另一方面,也是如今被讨论得更多的,是健全和完善慕课平台的学习支持服务,为学习者提供更加全面、个性化的学习指导和更好的人机交互体验,或使用策略来激发学习者的学习动机,以此类方法提升教学质量。在与后者相关的研究视域下,提升慕课教学质量的问题成为了一个工程问题——如何设计能有效支持学习者学习的系统并实现它。在技术高度发达的今日,各种技术的应用愈发成熟,对于教育技术研究者来说这个问题的难点更多地在于设计上。大多数学者的选择是在教学理论和教学经验的基础上进行设计。然而,归纳式的教学理论是否能很好地贴合大量涌现的慕课教学的实际场景是—个值得商榷的问题。在这种抽象的理论到实际设计过程中,真实的、来自实践的经验是弥补理论到实践之间沟壑的重要依据。在数据技术愈加完善的今日,慕课平台上的学习者行为数据无疑是这些依据的重要来源。行为是经典心理学关注的焦点,对行为的研究能揭示学习者学习的一般规律,利用数据挖掘的手段对慕课平台上产生的学习行为数据进行分析,有助于加深对慕课教学的理解。
在这样的背景下,我们开展了这项研究。本研究以中国大学慕课《翻转课堂教学法MOOC》中的学习者产生的行为数据为研究对象,使用数据挖掘的方法探究优秀慕课学习者行为模式的特点。本研究是数据驱动的研究,关注的问题是优秀的慕课学习者在在线课程平台中学习行为模式的特点。本文对“优秀的慕课学习者”的操作定义是按照慕课课程评价标准,获得了优秀评价的学习者,即最后的结业成绩达到了80分以上的学习者。这一部分的学习者是具有相当的代表性和特殊性的学习者群体。其代表性在于,他们是课程希望培养的学习者,其学习表现满足了教学方的期望。他们自身的学习特点(如学习策略等)有着一定的特殊性,对他们的行为数据进行研究可以提供关于“如何促进学习”的有效信息。通过对比他们与其他学习者的学习行为模式,揭示他们的特征,可以帮助研究者更好地理解真实的慕课教学。
二、相关研究
已有许多学者开展了基于学习行为数据的研究。大多数的研究致力于建立起一种“行为模式一学业表现”的关系,揭示平台中学习者活动的行为并予以分析,研究中难点在于:如何对学习行为进行表征和建模;如何探究行为模式与学习者学业表现之间的关系。
对学习行为建模中重要的一步在于从数据中提取需要的特征。研究者可以根据数据集中的字段信息或理论需要,结合字段的信息形成需要的变量来表征某些行为模式的特征。如贾积有等提出在线学习活动指数OLAI这一指标来表征学习者参与在线学习活动时的特征;如今对于学习行为的研究不再局限于对静态的属性分析,许多研究者已经开展了对于学习者行为的动态特征,即行为序列的研究。对行为序列的研究中一种常用的方法是给用户行为进行编码:如杨现民等对用户的页面浏览行为进行编码,用滞后序列分析的方法寻找值得解读的行为模式。对于序列行为的研究,可以采用时间序列的方法用离散随机过程表征学习者的行为序列,并进行进一步的数据挖掘,如Maldonado等使用时间序列的方法从数据中寻找有理论价值的行为模式,Davis等也做了相似的研究,用离散随机过程对学习者的学习行为进行建模,并以状态间的转移为基本单位分析学习者在线学习行为的模式。
另一个重点在于如何发现行为模式与学业表现之间的关系。经典的研究方法是是采用相关分析、因果分析等统计手段探究表征学习模式的变量与表征学业成就的变量之间的关系,并给予理论解读。如贾积有等对北京大学六门慕课的数据进行分析并探究学习活动行为对学业成绩的影响。如今,越来越多的研究也加入了一些数据挖掘的方法,如聚类分析,主要解决研究者单纯从现有模型出发无法从数据中有效提取信息的问题:如李爽等通过相关分析、LSA和聚类分析等手段研究学习者行为与课程成绩的关系以及行为模式和特征,王改花等用特征聚类的方法對网络学习者进行分类。Vaessen等采用聚类和回归算法研究智能学习系统中学习者的求助策略与学习成绩的关系。其中,聚类分析可以在数据层面将学习者的一些信息挖掘出来,并给予研究者以启发。
三、研究设计
(一)研究问题和框架
本研究的研究问题是优秀的慕课学习者在慕课平台中的行为模式的特点是什么。更具体地说,是要回答两个问题: 1.优秀的慕课学习者在线行为序列的长度以及各类行为占比与其他学习者相比有什么不同?
2.优秀的慕课学习者每一次上线学习产生的各类有行为的共现(Co-Occurence)情况与其他学习者相比有什么不同?
研究用基于规则的机器自动标注的方法为学习者产生的行为数据赋予有意义的编码,并为其建立学习路径模型。研究将数据集中的学习者按照最终学业表现分为了四组,并探究各组成员在线行为中各类有意义行为占行为总数的比的差别。通过对行为编码的共现分析回答第二个问题。
(二)数据集
研究的对象是中国大学慕课上《翻转课堂教学法》MOOC共计13期的学习者,时间跨度从2015年3月至2017年12月。他们所有学习课程期间的浏览页面记录被系统后台页面所记录并形成了数据集。数据集中能提供的信息包括浏览记录编号、学习者编号、学期编号、学业成绩、上线时间、下线时间和浏览页面的名称。该课程在平台上有较大的影响力和相对较大的学习者群体。然而,在线教学情境复杂,学习者组成相当多元且表现出的学习行为也相当驳杂,故研究最终只保留最终获得了成绩且上线学习次数超过3次的17204名学习者作为研究对象,因为他们在课程中花费的精力相对来说更多,是在课程设计之初所期望的学习者对象。
(三)术语定义
1.学习路径
学习路径(Learning Path)是学习者完成教学活动时参与不同教学活动模块的路径记录。例如,在—个基于Web的教学系统中,一个学习者的学习路径可以用其访问的页面、在页面中停留的时间、点击的控件等人机交互行为来描述。在本文中,学习路径中的基本元素是学习者的行为编码,本文提出了以下几种行为编码来赋予学习者学习路径中不同行为及意义,并形成了行为编码词典,如表1所示。
经过编码后的学习路径可以通过一个数字编码的序列进行表示,如“024411117801111245550”表示的就是某学习者两次登陆进行学习的学习路径。如何在大量的页面访问中识别到有意义的信息,首先需要对每个学习者的学习记录进行编码,即为学习者访问每个页面的记录打上有理论意义的标签。在编码过程中,有大量页面停留时间在5秒及以下,本文将这些页面访问记录识别为行为噪音并予以剔除。
2.RSBC
对于不同学习者,某个行为编码在其所有学习路径中所有行为中的占比(Ratio of Specific Behavior Codes,简称RSBC)是不一样的。例如,对于学习者A,其学习路径中的所有行为用“2441111780”这样—个行为序列表示,则其“1”行为出现的频数为4,而序列中所有行为的个数为10,故其编码1的RSBC为25%。一个学习者不同编码行为的RSBC是一个有意义的指标,通过对学习者不同编码行为的RSBC的解读,可以从学习者的行为中了解一个学习者的学习的常态。例如,有的学习者偏好以课程视频为主要内容,快速浏览过整个课程获取其需要的知识,也有的学习者喜好通过与同伴的交流和互动加深对知识的理解。深入挖掘一门课程中不同学习者RSBC的信息对揭示学习者的学习模式和策略有极大的意义。
四、数据挖掘和分析
(一)为学习者建立学习路径模型
首先根据每个学习者的数据为课程平台上的所有学习者建立学习路径模型。将每个学习者每次进入课程的在线会话记录编码后合并,共得到17204条记录。统计所有學习者的行为频次及占比,结果如表2所示,表中的列表示行为编码,为所有学习者每种行为出现的频数以及其占行为总数的比。
(二)学习者分组
本文的研究问题是探究优秀的慕课学习者的学习行为模式有什么样的特点,本文采用比较研究的思路,依据学习者在平台上的学业表现对学习者进行分组,并通过组间的学习行为之间的比较来研究优秀学习者的学习行为模式的特点。研究将学习者分为以下四组:第一组为成绩在[0,20)区间内的学习者,第二组为成绩在[20,60)区间内的学习者,第三组为成绩在[60,80)区间内的学习者,第四组为成绩在[80,100]的学习者。从成绩的直方图分布来看这是一个U型(如图1所示),即成绩较差和较好的学习者较多,但是成绩中等(20-60)分的学习者较少,故依此划分了[0,20),[20,60)和[60,100]这三个区间。但是对于有获得证书需要的学习者来说,是否获得优秀(80分)的评级是一个较为重要的变量,对其最终表现出的在线行为有着较强的影响,故最终将学习者群体划分成了四个组,人数分别为8609、1596、2503、4496人。
(三)不同组学习者行为占比及行为序列长度的比较和解读
研究对不同组学习者的RSBC和行为序列长度绘制箱形图并比较,其结果如下页图2所示。
下页图2中有12张箱型图,图中依次是行为编码0-9在不同组学习者的RSBC、行为序列长度以及成绩的箱形图。前10张小图的纵轴为行为编码的RSBC,横轴为学习者分组1到4,分别是成绩由低到高的四个组。箱形的上沿和下沿分别是该组样本的上四分位数和下四分位数,箱形中间的黑线表示其样本的中位数。(文中若如无特殊说明,所报告的组间均值差异均通过了显著性水平为0.05的双样本t检验)
1.不同组学习者行为序列长度和时长的比较和解读
行为序列长度指学习者学习路径中各编码数量的总和,学习者在平台上有意义的访问页面的行为越多,则其行为序列的长度也就越长。四组学习者的行为序列长度的均值大小为又X4
关键词:慕课;行为模式;学习路径;共现分析
中图分类号:G434 文献标识码:A
一、引言
慕课这一概念自2008年提出至今,已经经历了10年的发展,在线开放课程已经成为如今教育的重要一部分。教育部在《2018年教育信息化和网络安全工作要点》中强调要形成国家教育资源公共服务体系,认定第二批国家精品在线开放课程(MOOC)500门以上,体现了在线开放课程正在逐步融入主流、常态的高等教育体系。在慕课发展的过程中,如何提升慕课的教学质量向来是研究的焦点。
目前,对于“如何提升慕课教学质量”的回答主要集中于两方面。一方面从政策建议入手,以教学系统的制度变革等手段在宏观上来推进慕课教学质量的提升;另一方面,也是如今被讨论得更多的,是健全和完善慕课平台的学习支持服务,为学习者提供更加全面、个性化的学习指导和更好的人机交互体验,或使用策略来激发学习者的学习动机,以此类方法提升教学质量。在与后者相关的研究视域下,提升慕课教学质量的问题成为了一个工程问题——如何设计能有效支持学习者学习的系统并实现它。在技术高度发达的今日,各种技术的应用愈发成熟,对于教育技术研究者来说这个问题的难点更多地在于设计上。大多数学者的选择是在教学理论和教学经验的基础上进行设计。然而,归纳式的教学理论是否能很好地贴合大量涌现的慕课教学的实际场景是—个值得商榷的问题。在这种抽象的理论到实际设计过程中,真实的、来自实践的经验是弥补理论到实践之间沟壑的重要依据。在数据技术愈加完善的今日,慕课平台上的学习者行为数据无疑是这些依据的重要来源。行为是经典心理学关注的焦点,对行为的研究能揭示学习者学习的一般规律,利用数据挖掘的手段对慕课平台上产生的学习行为数据进行分析,有助于加深对慕课教学的理解。
在这样的背景下,我们开展了这项研究。本研究以中国大学慕课《翻转课堂教学法MOOC》中的学习者产生的行为数据为研究对象,使用数据挖掘的方法探究优秀慕课学习者行为模式的特点。本研究是数据驱动的研究,关注的问题是优秀的慕课学习者在在线课程平台中学习行为模式的特点。本文对“优秀的慕课学习者”的操作定义是按照慕课课程评价标准,获得了优秀评价的学习者,即最后的结业成绩达到了80分以上的学习者。这一部分的学习者是具有相当的代表性和特殊性的学习者群体。其代表性在于,他们是课程希望培养的学习者,其学习表现满足了教学方的期望。他们自身的学习特点(如学习策略等)有着一定的特殊性,对他们的行为数据进行研究可以提供关于“如何促进学习”的有效信息。通过对比他们与其他学习者的学习行为模式,揭示他们的特征,可以帮助研究者更好地理解真实的慕课教学。
二、相关研究
已有许多学者开展了基于学习行为数据的研究。大多数的研究致力于建立起一种“行为模式一学业表现”的关系,揭示平台中学习者活动的行为并予以分析,研究中难点在于:如何对学习行为进行表征和建模;如何探究行为模式与学习者学业表现之间的关系。
对学习行为建模中重要的一步在于从数据中提取需要的特征。研究者可以根据数据集中的字段信息或理论需要,结合字段的信息形成需要的变量来表征某些行为模式的特征。如贾积有等提出在线学习活动指数OLAI这一指标来表征学习者参与在线学习活动时的特征;如今对于学习行为的研究不再局限于对静态的属性分析,许多研究者已经开展了对于学习者行为的动态特征,即行为序列的研究。对行为序列的研究中一种常用的方法是给用户行为进行编码:如杨现民等对用户的页面浏览行为进行编码,用滞后序列分析的方法寻找值得解读的行为模式。对于序列行为的研究,可以采用时间序列的方法用离散随机过程表征学习者的行为序列,并进行进一步的数据挖掘,如Maldonado等使用时间序列的方法从数据中寻找有理论价值的行为模式,Davis等也做了相似的研究,用离散随机过程对学习者的学习行为进行建模,并以状态间的转移为基本单位分析学习者在线学习行为的模式。
另一个重点在于如何发现行为模式与学业表现之间的关系。经典的研究方法是是采用相关分析、因果分析等统计手段探究表征学习模式的变量与表征学业成就的变量之间的关系,并给予理论解读。如贾积有等对北京大学六门慕课的数据进行分析并探究学习活动行为对学业成绩的影响。如今,越来越多的研究也加入了一些数据挖掘的方法,如聚类分析,主要解决研究者单纯从现有模型出发无法从数据中有效提取信息的问题:如李爽等通过相关分析、LSA和聚类分析等手段研究学习者行为与课程成绩的关系以及行为模式和特征,王改花等用特征聚类的方法對网络学习者进行分类。Vaessen等采用聚类和回归算法研究智能学习系统中学习者的求助策略与学习成绩的关系。其中,聚类分析可以在数据层面将学习者的一些信息挖掘出来,并给予研究者以启发。
三、研究设计
(一)研究问题和框架
本研究的研究问题是优秀的慕课学习者在慕课平台中的行为模式的特点是什么。更具体地说,是要回答两个问题: 1.优秀的慕课学习者在线行为序列的长度以及各类行为占比与其他学习者相比有什么不同?
2.优秀的慕课学习者每一次上线学习产生的各类有行为的共现(Co-Occurence)情况与其他学习者相比有什么不同?
研究用基于规则的机器自动标注的方法为学习者产生的行为数据赋予有意义的编码,并为其建立学习路径模型。研究将数据集中的学习者按照最终学业表现分为了四组,并探究各组成员在线行为中各类有意义行为占行为总数的比的差别。通过对行为编码的共现分析回答第二个问题。
(二)数据集
研究的对象是中国大学慕课上《翻转课堂教学法》MOOC共计13期的学习者,时间跨度从2015年3月至2017年12月。他们所有学习课程期间的浏览页面记录被系统后台页面所记录并形成了数据集。数据集中能提供的信息包括浏览记录编号、学习者编号、学期编号、学业成绩、上线时间、下线时间和浏览页面的名称。该课程在平台上有较大的影响力和相对较大的学习者群体。然而,在线教学情境复杂,学习者组成相当多元且表现出的学习行为也相当驳杂,故研究最终只保留最终获得了成绩且上线学习次数超过3次的17204名学习者作为研究对象,因为他们在课程中花费的精力相对来说更多,是在课程设计之初所期望的学习者对象。
(三)术语定义
1.学习路径
学习路径(Learning Path)是学习者完成教学活动时参与不同教学活动模块的路径记录。例如,在—个基于Web的教学系统中,一个学习者的学习路径可以用其访问的页面、在页面中停留的时间、点击的控件等人机交互行为来描述。在本文中,学习路径中的基本元素是学习者的行为编码,本文提出了以下几种行为编码来赋予学习者学习路径中不同行为及意义,并形成了行为编码词典,如表1所示。
经过编码后的学习路径可以通过一个数字编码的序列进行表示,如“024411117801111245550”表示的就是某学习者两次登陆进行学习的学习路径。如何在大量的页面访问中识别到有意义的信息,首先需要对每个学习者的学习记录进行编码,即为学习者访问每个页面的记录打上有理论意义的标签。在编码过程中,有大量页面停留时间在5秒及以下,本文将这些页面访问记录识别为行为噪音并予以剔除。
2.RSBC
对于不同学习者,某个行为编码在其所有学习路径中所有行为中的占比(Ratio of Specific Behavior Codes,简称RSBC)是不一样的。例如,对于学习者A,其学习路径中的所有行为用“2441111780”这样—个行为序列表示,则其“1”行为出现的频数为4,而序列中所有行为的个数为10,故其编码1的RSBC为25%。一个学习者不同编码行为的RSBC是一个有意义的指标,通过对学习者不同编码行为的RSBC的解读,可以从学习者的行为中了解一个学习者的学习的常态。例如,有的学习者偏好以课程视频为主要内容,快速浏览过整个课程获取其需要的知识,也有的学习者喜好通过与同伴的交流和互动加深对知识的理解。深入挖掘一门课程中不同学习者RSBC的信息对揭示学习者的学习模式和策略有极大的意义。
四、数据挖掘和分析
(一)为学习者建立学习路径模型
首先根据每个学习者的数据为课程平台上的所有学习者建立学习路径模型。将每个学习者每次进入课程的在线会话记录编码后合并,共得到17204条记录。统计所有學习者的行为频次及占比,结果如表2所示,表中的列表示行为编码,为所有学习者每种行为出现的频数以及其占行为总数的比。
(二)学习者分组
本文的研究问题是探究优秀的慕课学习者的学习行为模式有什么样的特点,本文采用比较研究的思路,依据学习者在平台上的学业表现对学习者进行分组,并通过组间的学习行为之间的比较来研究优秀学习者的学习行为模式的特点。研究将学习者分为以下四组:第一组为成绩在[0,20)区间内的学习者,第二组为成绩在[20,60)区间内的学习者,第三组为成绩在[60,80)区间内的学习者,第四组为成绩在[80,100]的学习者。从成绩的直方图分布来看这是一个U型(如图1所示),即成绩较差和较好的学习者较多,但是成绩中等(20-60)分的学习者较少,故依此划分了[0,20),[20,60)和[60,100]这三个区间。但是对于有获得证书需要的学习者来说,是否获得优秀(80分)的评级是一个较为重要的变量,对其最终表现出的在线行为有着较强的影响,故最终将学习者群体划分成了四个组,人数分别为8609、1596、2503、4496人。
(三)不同组学习者行为占比及行为序列长度的比较和解读
研究对不同组学习者的RSBC和行为序列长度绘制箱形图并比较,其结果如下页图2所示。
下页图2中有12张箱型图,图中依次是行为编码0-9在不同组学习者的RSBC、行为序列长度以及成绩的箱形图。前10张小图的纵轴为行为编码的RSBC,横轴为学习者分组1到4,分别是成绩由低到高的四个组。箱形的上沿和下沿分别是该组样本的上四分位数和下四分位数,箱形中间的黑线表示其样本的中位数。(文中若如无特殊说明,所报告的组间均值差异均通过了显著性水平为0.05的双样本t检验)
1.不同组学习者行为序列长度和时长的比较和解读
行为序列长度指学习者学习路径中各编码数量的总和,学习者在平台上有意义的访问页面的行为越多,则其行为序列的长度也就越长。四组学习者的行为序列长度的均值大小为又X4