论文部分内容阅读
摘要:教学大数据是在多源异构、不连续、易干扰环境下形成的经典数据与非经典数据的复杂集合。该文从教学大数据挖掘的观点出发,增加Web数据和图像数据,对传统的挖掘数据源进行扩展;提出教学视点和数据视点的概念,并基于此构建了教学数据挖掘框架;以远程教学过程为例,从教师、学习者、管理者、资源设计、教学事件处理等不同的视点提出了数据挖掘的相关因素。通过多种数据源的挖掘处理方法的研究完成相应视点下事件的因果关系及相关关系的分析,为教学数据挖掘提出了新的思路和策略,为教学质量提升提出了一种可行的方法。
关键词:教学视点;数据挖掘;挖掘模式;多源异构数据;数据视点;远程教学
中图分类号:G434 文献标识码:A
随着大数据的普及和大数据时代的到来,数据的存储结构发生了很大的变化,半结构化和非结构化的数据成为了大数据的主体。但与此同时,大量数据的价值密度也逐渐降低,如何从海量的数据中挖掘出有价值的数据成为了研究者关注的主要问题。
在教育领域,大量的研究者基于教学大数据开展了挖掘工作,进行了学习行为分析、学习效果评价以及教育决策分析等应用研究,通过对经典数据库存储的结构化教育数据的处理,找出学习者在学习中的行为规律,为相关的分析决策提供有效的依据。Divna等人采用聚类算法对Moodle平臺中的学习数据进行分析,验证了数据挖掘技术在网络学习分析中的可行性。Huseyin等人采用决策树算法预测影响学生学业成功的影响因素,利用多种模型视图构建了教育数据挖掘系统。陈子健等人挖掘教育大数据中影响在线学习者学业成绩的因素,并通过机器学习建立分类预测模型。聂瑞华等人提出基于数据融合的个性化学习支持方案。李彤彤等人以干预引擎为中心建立了基于教育大数据的学习干预模型。吴南中建立了基于教学大数据混合学习视域下的教学设计逻辑框架。
然而,随着网络学习环境、方式、技术和功能的扩展,教育数据的概念也得到了很大的延伸,除了传统的经典数据之外,还包括大量的半结构化和非结构化的视频、音频、网页、文字等Web数据和图像数据,这些数据蕴含着更丰富更有价值的信息,它们将会成为教育大数据挖掘的重要数据来源,发挥着比经典数据更重要和直观的作用。Web教育大数据和图像教育数据有许多不同于经典数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,比经典数据挖掘和分析更困难。
目前对于教育大数据的认识和使用还存在一定的误区,大量的挖掘者认为教育大数据是万能的,大数据的挖掘技术是万能的,只要有了大数据,就一定能挖掘到自己需要的信息,挖掘到的信息一定有助于教学问题的解决。事实上,目前的大数据挖掘还存在一定的局限性,如挖掘目标的盲目性、挖掘过程中存在着无法识别的盲区、挖掘的数据相关性不强、对多源异构数据的处理能力差、挖掘的数据不完整、历史延续性不足等。数据挖掘仅仅是一种为人所用的工具,必须在智能的设计框架下它才有生命力,才能发挥出作用,因此,需要有智慧的、能够辨识挖掘方向的人根据自身的需求,站在一定的视点来看待海量数据中的挖掘问题,首先需要对要解决的问题进行分类,明确哪些问题可以挖掘,哪些问题不能挖掘,哪些问题不必挖掘,同时还要明确挖掘哪些数据,挖掘的方向是什么,谁来挖掘数据,挖掘数据的目的是什么,如何挖掘数据,如何去掉挖掘的盲点,如何避免挖掘的盲目性,哪些因素与挖掘相关,到哪里挖掘数据,挖掘数据的范围有多长多宽,挖掘出来的数据是否全部有用,挖掘的数据为谁服务等等一系列问题。数据挖掘应该是带有很明确的方向性、区域性、代表性、特征性和目标性。尤其对于国内远程教学而言,教学中心分布广泛、数据量大、数据有效度强、可靠性差、图像数据和后期分析数据相对完备,其数据本身具有指向性、区域性、特征性、事件性、传播性、政策连带性、叠加性等特点,挖掘者站在什么样的视点、如何针对远程教学解决以上数据挖掘问题是本论文研究的主要内容。
研究的态度和研究视点决定了观察问题的角度和对问题的剖析度。教学数据挖掘是一个将来自各种教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、教育研究人员以及教育软件系统开发人员所利用。教学大数据挖掘应该站在教学的视点,从教学中不同的角色出发,从教学角色所关心的问题出发,通过对教学事件的影响因素及数据的分类研究,借助于不同的挖掘手段和挖掘方法,针对扩展的多源异构数据源,挖掘出事件与教学质量的关系规律,从而实现教学质量的控制。
教学大数据挖掘只是一种手段,不是最终的目标,数据挖掘最终的目标是要找到教学所发生事件的真正规律和内涵,为教学质量控制做准备。站在教学的视点通过对教学不同角色的分类,利用大数据挖掘方法对多源异构数据进行挖掘和基于数据视点的综合分析,通过寻找引起事件发生的相关因素,形成教学控制自变量x,分析自变量x可能引起现象,构成控制函数y=f(x),最终完成对因变量y的控制,达到教学质量控制的目标,使质量曲线向优秀的目标曲线逼近。图1所示为教学数据挖掘框架。
(一)教学大数据类型
本研究针对远程教学展开,远程教学大数据包含内涵数据和外延数据两部分。理清究竟哪些属于内涵数据、哪些属于外延数据以及内涵数据与外延数据之间的分界是进行教学大数据研究的前提。
1.内涵大数据:是指与教学本身相关的而且带有很强传统概念的数据,其中主要包括教学运行和教学活动的相关数据。这些数据中绝大部分被称为内涵数据,而这些核心数据主要用于教学内部管理和教学档案管理,无法驱动对教学质量的评测,带有一定的片面性。 2.外延大数据:是指在广域范围内的,与教学不直接相关的数据。这些数据可以是官方统计的相关数据,也可以是在网站或其他网络平台等出现的非官方数据,这些数据涉及的范围广泛,包括主观数据和客观数据。
(二)教学大数据特性
教学大数据与其他行业大数据的特征明显不同,主要体现在如下几个方面。
1.多源异构性
教学大数据的主要来源是经典的数据库中存储的与教学、管理相关的数据,但由于系统功能和存储介质容量的限制,能被存储的数据多数都是客观信息的表达,这些数据构成了目前数据挖掘的主要数据源。然而随着信息处理技术的发展,图像数据、网络数据等成为了记载学习者学习过程的主要来源,这些图像行为和语义行为的数据以半结构化或非结构化的形式存储,对它们的分析和挖掘可以为学习者、教师和管理者提供更加直观的结论,因此将会成为未来大数据挖掘的主要数据来源。
2.无规律性
教学数据本身的记载带有片面性,传统的教育是根据经验去摸索数据的规律,如果要完善教育大数据,需要对其进行大量统计分析工作,目前非常难以实施。除此之外,由于还存在着大量的缺陷数据,导致教学大数据不仅经常受到强烈的干扰,还很难寻找到规律。因此,就必须通过人工智能的技术将教学管理工作者常年形成的经验和目前的数据进行拟合,通过经验的补充来形成数据的补充,从而逐步完善教学大数据。
3.不延展性
延展性是指事件受到干扰以后仍然能够延续下去的特性。随着IT技术的发展和各种教学思潮的不断涌现,很多教学思想或教学举措都很难保持这种延续性。主要表现在以下几个方面:(1)政策的频繁出台带来了教学宏观问题的延展性不足;(2)由于教学方法自身影响力和传播力的原因导致的延展性不足;(3)由于人员的变动或机构的调整造成的延展性不足;(4)IT教育的移植造成的延展性不足。
4.不完整性
不完整性主要体现在大数据本身构造不完整、数据的关联不完整、数据的组合过程不完整、很多缺陷问题引起的数据不完整、事件整体不完整、政策不能延续贯彻导致的结论不完整等。
5.突发性
突发性分为正常突发和异常突发。可预测的突发称为正常突发,而数据的紊乱和突变都属于异常突发。对数据的变化主要观察突发事件的性质、突发事件的原因以及突发事件发生的时间。事件的突发并不代表没有规律,突发事件不能代表整个数据全部的特性,它仅仅是局部数据的异常。
6.政策干扰性
我国远程教学大数据受大环境影响性较大,先前政策的中断或与现有政策产生叠加造成了达不到预期目标、得不到相关数据、实现不了相应效果的局面,由此引发了数据干扰问题。
7.结果的传播性和影响性
经过大数据挖掘得到的数据结果自身有一定权威性和认可度,不管结论是全面还是片面,或是有误差的,它在公众中都具有一定的传播力和影响力。如学校排名、学科排名决定了学生报考的趋势。
8.叠加性
数据的叠加包括在主流事件上叠加小的事件以及大事件与大事件的多层叠加两种。叠加所带来的统计数据是不准确的或带有相当的偏激性和干扰性,可以先对这一阶段的干扰问题进行排除,通过研究整个过程的惯性数据来看其长期呈现的规律。但如果两个事件都同样具备长期的影响力,就要通过教学视点找出相应的因素进行干扰的排除,之后通过人为的经验进行判定。
9.数据之间的干扰性
由于多源数据中数据之间存在着同步性和由于时间的延展造成的错位性问题,使得这些数据无法达到真正的统一,一个数据的出现将会对另一个数据的判定产生参考或干扰作用。数据干扰的强弱取决于通过数据视点所观察到的数据之间的关系,这种关系的强弱决定了干扰的强弱。数据之间的干扰不一定产生的都是负面作用,要擅长干扰性分析,有时干扰还会成为辅助数据判断的因素。
内涵数据、外延数据以及没有被统计到的缺陷数据共同构成了教学的整体数据,它可以是一个校园内的全部教学及相关数据。但仅仅研究这个教学整体数据还不足以发现教学问题,必须通过将一个广域区域的内涵数据、相关外延数据、政策部门数据等全部叠加,形成大数据的整体,在大数据整体的基础上进行挖掘分析才能找到真正的教学规律。
(三)教学数据监控点与作用点
教学大数据挖掘的最终目标是通过对不同视点下教学参与者关注的教学现象的监测,完成向最优教学效果逼近的过程。因此,可以为不同教学事件设置不同的数据监控点和作用点。
监控点是指教学中为了对某些过程、现象或对象进行监视而没置的控制点。通过对监控点的监控,可以找出存在的问题,从而及时采取措施实现对相应教学问题的调整。监控点主要包括教学监控点和技术监控点。
1.教学监控点
教学监控点主要监测整个教学过程的运行状况、教学过程是否符合教学进度及要求、学习者对课程的反应和满意度、教师对学生的反应和满意度、教学进度问题、教学过程问题、教学执行过程中人的问题、教学执行过程中环境问题、教学执行过程中学生对教学服务的满意度、学习支持是否到位、学生的诉求能否得到及时回应、教学问题是否能够得到及时解决、教学实施过程是否有序进行、实践环节监控是否到位、实践环节教师指导是否到位等系列问题。如果在某个观测点上没有符合预期目标,要同时在这些点上给予相关调整。
2.技术监控点
技术监控点分为两部分:硬件技术支持和软件流程服务。硬件技术支持主要监测带宽、服务器均衡、线路拥塞、网络等技术问题,检验的是技术支持服务能否到位,能否为网络教学提供可靠安全的运行环境。软件流程服务主要监测教学系统流程设计是否符合常规操作流程,功能是否完备、运行是否正常、是否能够满足正常教学活动需求等。
作用点是对监控的问题进行应力的施加点,它位于监控点之后。系统根据不同的教学监控点获得相关信息,对于呈现的与标准不一致的问题进行相应调整,调整的程度决定了系统中反馈的作用力的大小。作用点作用在何处因问题而异,它与动作行為的滞前滞后有很大关系,即与延迟行为、组织行为、反馈速度、观测点产生的影响有关系。多数教学的作用点应该是对原来执行教学过程反馈后回到起始点开始进行修正。作用点上施加的应力或采取的策略叫做作用力,监控点、作用点与作用力的关系示意图可以借鉴工业控制模型表达为如图2所示的形式。
教学视点是观察教学问题的角度和视野,教学视点决定了解决教学问题的态度和措施,因此教学视点的方向和广域度将直接决定教学自身的态度。教学视点分为广域视点和局域视点。广域视点是站在管理者的角度实现的教学过程调控、教学质量提升、教学能力提高、课程资源优化、教学效果推动等,而局域视点则更加着眼于具体的教学过程的控制,如考试环节、授课环节、实践环节、毕设环节等。远程教学视点是一种多源多方向的教育视点,从提升教学质量出发,站在教学系统不同角色的角度,对教学数据挖掘的方向和挖掘的区域的进行了界定,为数据挖掘的开展提供了明确的目标。
没有教学视点的数据是一个没有意义的数据。但数据本身到底是有没有意义,要根据研究视点的时间轴、类型、方向以及广域度来考虑。某些数据看起来好像与事件无关,但是如果研究出这些数据与其他数据之间的关系,这些数据就很可能具有利用价值。教育大数据的真正的特点,是让这些原来认为无价值的数据、甚至好像无关联的数据成为有价值、有关联的数据,把隐含的数据变成显含的数据。数据关系的研究价值远远大于数据源本身的研究。
(一)教学大数据挖掘方向
数据本身是一种标志,大数据挖掘的目标是按照标定的内容去寻找事件的标志,要挖掘现有数据的规律和思想。常规的数据挖掘都是对经典数据进行的,而经典数据的存在实质是大数据挖掘区域中很窄的一部分,是人们带有一定偏向性的理解和带有传统性的教学数据的移植,构不成大数据挖掘的前提条件,因此只能在这个小区域内讨论历史数据的特性,对于整体教学质量的提高和真正教育内涵数据的处理无法构成完整的系统和数据体系。在这种缺憾条件下,通过视点研究把所要讨论和挖掘的目标按照数据背景和教育视点进行分类,在不同的分类下挖掘不同的数据,才能有效地避免教育大数据的不相融。
大数据本身不是万能的,不是有了大数据就能解决一切问题,大数据要站在可行的、落地的角度,要承认目前历史数据的不完整性,承认目前管理思路的不连续性,承认现在政策干预导致的数据的不纯洁性,只有在这些条件下才能有效地析取出挖掘的方向和目标。因此,本研究关注的教学大数据挖掘的方向,研究的是教学大数据挖掘的构造、数据之间的关系、数据挖掘的目标以及影响数据挖掘目标的综合因素。
大数据挖掘是个庞大的工程,除了现有经典数据之外,还要扩展其他的数据来源,可以是能够被直观辨识的,也可以是不能被直观辨识的,例如语音、图像、Web网站的议论等,这些现象比给经典数据表达的含义更加明晰。虽然这些多源数据形式不同,但可以通过先进的数据处理技术完成对它们的抽取和语义分析,实现数据规律的挖掘。除此之外,还要能够根据历史数据构造和延展它的未来数据以及一些不可能获取到或不可能成为现实的数据,以此丰富教育大数据的内涵。
(二)教学大数据挖掘分类
借助教学大数据挖掘的手段确定不同教学事件相关因素的规律,首先要对教学事件有一定的视点描述和视点规划,不能是盲目的挖掘,要分析事件数据的特征,要从发展的视点去看待事件,找出事件的类型,确定事件是否值得挖掘、是否需要从历史数据开始挖掘、是否需要从各个教学中心的数据开始挖掘,只有这样才能找出教学控制中的控制因素和控制本质。因此,对教学数据的挖掘应首先对事件进行分类,根据不同的分类决定如何进行数据挖掘。对于有规律可循的事件可以通过数据挖掘找出相应的规律,对于没有规律的事件则不对其实施挖掘。有的事件本身的规律性非常明显,可以直接进行判定,则不需要对其进行数据挖掘,还有一些事件是由若干个单一事件组合形成的,单一事件的规律对于组合事件具有一定的影响力,可以通过推理寻找到组合事件的规律。具体遵从的分类及处理原则范式如下:
1.IF事件∷this.可挖掘is TRUE THEN数据挖掘
2.IF事件∷this.可挖掘is FALSE THEN无法挖掘
3.IF事件∷this.标志is TRUE THEN不必进行数据挖掘
4.IF事件∷this.组合事件is TRUE THEN根据其他事件和数据的组合推断规律
(三)教学大数据挖掘区域
教学事件的发生具有一定的时域性,直观体现在时间轴的某个区域内,同时还会通过波形的变化表现出事件的特性。因此,教学大数据挖掘还可以从时间轴的角度来研究事件发生的区域,通过找出时间轴相关区域内波形与波形之间的规律可以找到事件与事件之间的规律。同时还可以通过波形的分析找到各教学中心之间的同步规律、某个主站发生的问题到分站后波及、影响和衰减的规律,为主站与教学中心以及教学中心间相互借鉴事件发生规律和事件处理经验提供一定的依据。
依据时间轴事件数据的图形特性可以确定教育大数据挖掘的区域,通过对图形规律的分析可以判断相应的事件及事件发生的特征。1.陡变型图形:可以判断图形的上升沿对应哪些事件的发生,尤其是进行Web主动式搜索时,图形的波形越陡,说明事件的严重程度越高。2.持续型图形:由于受到大环境、政策和思潮的影响出现连续的大事件,形成有一定规律特征的持续图形。3.叠加型图形:表示的是多个事件的组合,需要对不同的事件进行分类,可以引用连续小波方法进行缩放位移比对,找出各事件的类型和性质。4.分布型图形:当数据在广域多个网站和平台同时出现,或者短时间内相继出现,或者滞后发现相似规律的图形,就需要对各个教学中心进行图形分析,找到事件的共性。5.偶發型图形:对于在时间轴上发生的重复性偶发事件,可以通过找出历史时期所发生的事件与当今事件的关系来判断相应的事件特性。6.组合型图形:组合型图形诱发了事件的关系组合,由某些小事件可诱发另一个大事件的组合,可通过对小事件的特征分析,推断大事件的事件特性。 以上图形的数据形成可以是经典数据现象、Web数据现象或图像语义分析数据现象,也可以是三者数据的组合现象。
(四)教学大数据挖掘方法
基于教学视点确定了数据挖掘方向和挖掘区域之后,本团队展开了针对多源异构教育数据的挖掘方法研究,图3所示为多源异构数据挖掘的逻辑示意图。挖掘过程共分为三层,底层的数据层是多来源多形态的数据集合,可以是结构化、半结构化或非结构化的数据,这些数据经过语义层的分析,进行不同的归类,为进一步的挖掘做好准备。结果层针对不同的数据类型采用相应的方法实现数据结果的判定。
经典数据的挖掘是在教育视点的前提下对相关数据以及相关联数据进行挖掘的过程,通过挖掘找出数据的因果关系和相关关系,找出相应的事件关系和规律。采用改进的K-MEANS聚类等算法实现了经典数据挖掘。
图像数据的挖掘是在教育视点给定的有限方向和区域内进行挖掘。通过图像数据语义的分析,找到相应图像的判定结果,给出更加直观的数据现象,如本团队开发的考场监控系统实现了教学监控大数据挖掘。图像数据挖掘在某种程度上更加直观和易于理解,它的判定结果对经典数据挖掘结果是—种有效的匹配和验证。采用基于骨架特征提取的行为分析数据挖掘方法实现了图像数据的挖掘。
通过在Web网络中搜索网站的点击率、网站的议论以及手机相关信息并对其进行分析,站在教育视点广域的角度上完成有限的网站和相关的手机群的数据语义挖掘。通过语义分析找出学习者对教育问题的诉求,找到他们在教学视点问题上对资源的评价和对教学评价等信息,利用基于关键字抽取的文本聚类算法实现了Web数据挖掘。
以上几种数据挖掘的现象和结果是相辅相成的,它们对于事件的分析形成了统一的认识。这种挖掘的综合结果更加客观、直观,为教学数据挖掘提出了一种更广阔的思路。
教学数据视点研究的是看待数据的立场、目标和态度,它是一个综合视点。人们在观察事物的时候通常带有一定的态度,因此观察数据时也会具有一定的观点。数据视点本身含有一种主观性,是将获取的客观数据根据主观的态度进行分析,将多种数据和事件的判定进行综合,找出教学的综合观点。由于分析者本身带有视点的感情和情绪,所以分析的立场各不相同,分析数据的关注度也各不相同。教学数据视点是基于教学数据基础上,结合观测者本人的视点以及他所研究的视点需求的基础上,提出自己对数据处理的概念。教学数据视点的观测应具备正确性、前瞻l生、延续性和科学性,研究视点的目标是通过获取数据和提取数据的手段和方法凝练出数据事实,寻找到事件的影响因素和发展趋势,同时还能根据处理的问题延伸出相应的教学策略和搜索策略。
从不同的观察角度来看待数据视点会产生不同的视点分类:1.主客观角度。从主客观角度来分,数据视点分为主观数据视点和客观数据视点。2.经验角度。从经验角度来分,数据视点分为经验数据视点和非经验数据视点。3.技术角度。从技术角度来分,数据视点分为经典数据视点、Web数据视点、图像数据视点、VR/AR数据视点。4.数据关系角度。从数据关系角度来分,数据视点分为相关关系数据视点和因果关系数据视点。
教学数据视点是从科学的角度提出的,它描述了教育研究者或者需要研究某个方向和目标的工作人员所要完成的任务,它根据需求给出了不同角度、不同位置、不同任务和不同级别的事件因素的观测点和数据的获取点。
从教学的视点研究教学质量的提高,必须要先明确教学的组成部分及各部分的组成要素,本研究从远程教育中教师、学习者、管理者等不同角度描述了与其自身相关的教学问题、教学元素和教学功能,明确了每个问题的相关因素,通过对这些因素的调整和控制,可以实现系统整体教学质量的最优控制。同时它也是教学数据挖掘参考模型和设计框架,是一种数据挖掘的因果关系和线索图,为教育数据挖掘和管理设计提供了相应的思路和路线,也为相关人员解决教学问题提供了方案。
(一)学习过程教师视点
表1所示为远程学习过程中教师视点示意表,该表呈现了教师在教学中关心的教学范围,包括备课资源、评价获取、课程基础、学生层次、大纲进度、辅导团队课件制作团队能力、资源平台、资源环境、作业/考核平台功能、实践环节平臺功能、支持服务平台功能、反馈功能以及与这些内容相关的一些子因素,当教师在教学中遇到相关问题时,可以通过数据挖掘获取该问题的子因素并对其进行分析获得解决思路,也可以明确通过哪些子因素的改善可以达到问题的最优,同时还可以借助大数据挖掘的手段获取相关的数据信息和规律,为问题的解决提供有效的依据。
(二)学习过程学习者视点
表2所示为远程学习过程中学习者视点示意表。从学习者的角度看待教学,他们所关心的问题包括资源质量、教师质量、作业/考核、教学环境、资源评价、实践环境和学习支持。根据这些模块中所涉及的信息特征,系统可以分别去挖掘相关的数据为学习者的学习提供有效的支持。
(三)学习过程管理者视点
远程教学系统的管理者视点是站在系统宏观管理的角度来看待教学中的相关事件,他所关心的是学习者的学习行为、教师的教学行为、学习者和教师之间的关系、学习者和教学进度的关系、教学支持服务、教学环境以及教学突发事件的处理。管理者的关注点与教师和学生不同,关注的事件延展性更强、涉及的时间轴跨度更大、教学数据的获取范围更广,更加侧重于教学系统整体与目标的接近度。表3所示为学习过程管理者视点示意表,表中呈现了不同的教学事件及其相关因素,为数据挖掘提供了[长1[宽]两种不同的思维角度,其中[长]是从时间轴的角度对数据进行历史性分析,代表了对历史数据的挖掘,[宽]是从教学覆盖范围的角度对数据进行分析,主要指对各教学中心数据的挖掘。通过相关的事件的分析和挖掘,可以为教学质量的评价提供可靠的依据。
(四)学习过程资源设计视点
教学资源是教学质量的重要组成部分,资源设计的质量直接决定了学生的学习兴趣度、学习深入度和学习效果。下页表4所示为学习过程资源设计视点示意表,呈现了资源设计中相关的事件及影响因素。优秀的学习资源应该具备良好的开发团队,不仅要从内容上与教学大纲知识点相吻合,更需要注重资源效果的展示。远程的网络教学中,教学资源是教学的命脉,除了教师要具备良好的教学素质之外,资源是否能够吸引学生是提高他们对课程关注和学习的重要环节,因此,课程的编导比传统教学方式显得更为重要。要将教师对知识和学科的理解融入教学资源设计中,加入影视资源设计的理念,针对不同层次的学习者设计不同风格和类型的资源,要能对资源进行碎片化管理,使学生可以根据个人的关注度对资源进行自由裁剪,要扩展资源的获取手段和方式,利用先进的技术从网络中不断获取最新的教学资源。资源使用效果的评价是资源设计的重要反馈环节,通过学习者对资源不同渠道、多种方式的反馈,可以实现对资源的不断修正,从而达到资源质量的最优控制。
(五)教学事件处理视点
远程教学由于其本身的特殊性,呈现出了传统教学所不具备的特性,如教学环境复杂、学生分布广、学生水平层次不同、师生交互受限等。在这种7*24小时不间断的教学环境中,对教学事件的及时有效处理成为了保障教学秩序的非常重要的环节,尤其是对于突发事件,要能够做到及时检测、分析和处理。通常情况下,教学事件的产生具有一定的前兆性、关联性和预测性,要想处理好当前发生的事件,必须要了解和挖掘与之相关的现象和信息,从这些数据中推断出事件的起因、涉及的因素等信息,从而为决策提供有效的依据。除此之外,利用数据挖掘的手段,通过对历史数据的波形分析,找到事件发生的规律,实现教学事件的预测,对于远程教学具有非常重要的意义。表5为教学事件处理视点示意表。
(六)教學实例
基于以上大数据挖掘模式和教学管理视点,本团队实现了北京理工大学远程教学平台的教学作弊行为监控子系统。系统站在教学管理者对教学事件处理的视点上,利用了多源异构数据源的理念,从经典数据、Web网络数据和视频监控数据的角度,获取了考试成绩、考试结束后学生在Web讨论群中对于考试的议论信息以及考试过程中的视频监控数据三类数据源。对于经典数据的处理,系统主要完成的是考试成绩与考场座位之间的关联的分析。对于Web数据的采集,系统主要获取的是远程教学网站交互系统讨论群中的数据,采用基于关键字抽取的文本聚类算法完成了关键字抽取、情感分析。对于视频图像监控数据,利用基于骨架特征提取的行为分析数据挖掘方法通过对考生头部、上身的运动方向和运动轨迹数据的提取和分析,实现了考生考场行为的监控和判断。
教学作弊行为监控子系统工作流程如图4所示。作弊行为的判断所采用的三种数据源之间相互辅佐,相互支撑,为最终作弊行为的判定起到了相互印证的作用。系统最终的判定取决于三种数据源分析结果的综合。系统中维护了判定策略库、关键字库、异常行为模板库、关联关系库等多个相关数据库,分别支撑不同的数据源的挖掘判定。最终系统根据三种数据源的分析结果进行综合,利用策略库中提供的策略方案实现作弊行为的判定输出。
传统大数据挖掘的数据来源非常有限,挖掘结果的有效性和针对性不强。通过对其进行扩充,增加Web数据和图像数据作为新的数据源,可以有效提高数据挖掘的准确性。教学数据的挖掘应该具有明确的挖掘区域和方向,挖掘的目标不仅要寻找教学事件的因果关系,还要挖掘出事件之间的相关性和内涵性。数据挖掘的准确度以及挖掘的强度取决于看待教学的角度,论文据此提出了教学视点和数据视点的概念,通过远程教学实例研究,明确了教学视点下教学人员应具备的素质和对数据的态度。通过对数据挖掘方法的研究找出教学质量控制内涵及控制自变量属性,从而实现教学质量控制目标。
关键词:教学视点;数据挖掘;挖掘模式;多源异构数据;数据视点;远程教学
中图分类号:G434 文献标识码:A
一、引言
随着大数据的普及和大数据时代的到来,数据的存储结构发生了很大的变化,半结构化和非结构化的数据成为了大数据的主体。但与此同时,大量数据的价值密度也逐渐降低,如何从海量的数据中挖掘出有价值的数据成为了研究者关注的主要问题。
在教育领域,大量的研究者基于教学大数据开展了挖掘工作,进行了学习行为分析、学习效果评价以及教育决策分析等应用研究,通过对经典数据库存储的结构化教育数据的处理,找出学习者在学习中的行为规律,为相关的分析决策提供有效的依据。Divna等人采用聚类算法对Moodle平臺中的学习数据进行分析,验证了数据挖掘技术在网络学习分析中的可行性。Huseyin等人采用决策树算法预测影响学生学业成功的影响因素,利用多种模型视图构建了教育数据挖掘系统。陈子健等人挖掘教育大数据中影响在线学习者学业成绩的因素,并通过机器学习建立分类预测模型。聂瑞华等人提出基于数据融合的个性化学习支持方案。李彤彤等人以干预引擎为中心建立了基于教育大数据的学习干预模型。吴南中建立了基于教学大数据混合学习视域下的教学设计逻辑框架。
然而,随着网络学习环境、方式、技术和功能的扩展,教育数据的概念也得到了很大的延伸,除了传统的经典数据之外,还包括大量的半结构化和非结构化的视频、音频、网页、文字等Web数据和图像数据,这些数据蕴含着更丰富更有价值的信息,它们将会成为教育大数据挖掘的重要数据来源,发挥着比经典数据更重要和直观的作用。Web教育大数据和图像教育数据有许多不同于经典数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,比经典数据挖掘和分析更困难。
目前对于教育大数据的认识和使用还存在一定的误区,大量的挖掘者认为教育大数据是万能的,大数据的挖掘技术是万能的,只要有了大数据,就一定能挖掘到自己需要的信息,挖掘到的信息一定有助于教学问题的解决。事实上,目前的大数据挖掘还存在一定的局限性,如挖掘目标的盲目性、挖掘过程中存在着无法识别的盲区、挖掘的数据相关性不强、对多源异构数据的处理能力差、挖掘的数据不完整、历史延续性不足等。数据挖掘仅仅是一种为人所用的工具,必须在智能的设计框架下它才有生命力,才能发挥出作用,因此,需要有智慧的、能够辨识挖掘方向的人根据自身的需求,站在一定的视点来看待海量数据中的挖掘问题,首先需要对要解决的问题进行分类,明确哪些问题可以挖掘,哪些问题不能挖掘,哪些问题不必挖掘,同时还要明确挖掘哪些数据,挖掘的方向是什么,谁来挖掘数据,挖掘数据的目的是什么,如何挖掘数据,如何去掉挖掘的盲点,如何避免挖掘的盲目性,哪些因素与挖掘相关,到哪里挖掘数据,挖掘数据的范围有多长多宽,挖掘出来的数据是否全部有用,挖掘的数据为谁服务等等一系列问题。数据挖掘应该是带有很明确的方向性、区域性、代表性、特征性和目标性。尤其对于国内远程教学而言,教学中心分布广泛、数据量大、数据有效度强、可靠性差、图像数据和后期分析数据相对完备,其数据本身具有指向性、区域性、特征性、事件性、传播性、政策连带性、叠加性等特点,挖掘者站在什么样的视点、如何针对远程教学解决以上数据挖掘问题是本论文研究的主要内容。
二、教学大数据挖掘框架
研究的态度和研究视点决定了观察问题的角度和对问题的剖析度。教学数据挖掘是一个将来自各种教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、教育研究人员以及教育软件系统开发人员所利用。教学大数据挖掘应该站在教学的视点,从教学中不同的角色出发,从教学角色所关心的问题出发,通过对教学事件的影响因素及数据的分类研究,借助于不同的挖掘手段和挖掘方法,针对扩展的多源异构数据源,挖掘出事件与教学质量的关系规律,从而实现教学质量的控制。
教学大数据挖掘只是一种手段,不是最终的目标,数据挖掘最终的目标是要找到教学所发生事件的真正规律和内涵,为教学质量控制做准备。站在教学的视点通过对教学不同角色的分类,利用大数据挖掘方法对多源异构数据进行挖掘和基于数据视点的综合分析,通过寻找引起事件发生的相关因素,形成教学控制自变量x,分析自变量x可能引起现象,构成控制函数y=f(x),最终完成对因变量y的控制,达到教学质量控制的目标,使质量曲线向优秀的目标曲线逼近。图1所示为教学数据挖掘框架。
三、教学大数据研究
(一)教学大数据类型
本研究针对远程教学展开,远程教学大数据包含内涵数据和外延数据两部分。理清究竟哪些属于内涵数据、哪些属于外延数据以及内涵数据与外延数据之间的分界是进行教学大数据研究的前提。
1.内涵大数据:是指与教学本身相关的而且带有很强传统概念的数据,其中主要包括教学运行和教学活动的相关数据。这些数据中绝大部分被称为内涵数据,而这些核心数据主要用于教学内部管理和教学档案管理,无法驱动对教学质量的评测,带有一定的片面性。 2.外延大数据:是指在广域范围内的,与教学不直接相关的数据。这些数据可以是官方统计的相关数据,也可以是在网站或其他网络平台等出现的非官方数据,这些数据涉及的范围广泛,包括主观数据和客观数据。
(二)教学大数据特性
教学大数据与其他行业大数据的特征明显不同,主要体现在如下几个方面。
1.多源异构性
教学大数据的主要来源是经典的数据库中存储的与教学、管理相关的数据,但由于系统功能和存储介质容量的限制,能被存储的数据多数都是客观信息的表达,这些数据构成了目前数据挖掘的主要数据源。然而随着信息处理技术的发展,图像数据、网络数据等成为了记载学习者学习过程的主要来源,这些图像行为和语义行为的数据以半结构化或非结构化的形式存储,对它们的分析和挖掘可以为学习者、教师和管理者提供更加直观的结论,因此将会成为未来大数据挖掘的主要数据来源。
2.无规律性
教学数据本身的记载带有片面性,传统的教育是根据经验去摸索数据的规律,如果要完善教育大数据,需要对其进行大量统计分析工作,目前非常难以实施。除此之外,由于还存在着大量的缺陷数据,导致教学大数据不仅经常受到强烈的干扰,还很难寻找到规律。因此,就必须通过人工智能的技术将教学管理工作者常年形成的经验和目前的数据进行拟合,通过经验的补充来形成数据的补充,从而逐步完善教学大数据。
3.不延展性
延展性是指事件受到干扰以后仍然能够延续下去的特性。随着IT技术的发展和各种教学思潮的不断涌现,很多教学思想或教学举措都很难保持这种延续性。主要表现在以下几个方面:(1)政策的频繁出台带来了教学宏观问题的延展性不足;(2)由于教学方法自身影响力和传播力的原因导致的延展性不足;(3)由于人员的变动或机构的调整造成的延展性不足;(4)IT教育的移植造成的延展性不足。
4.不完整性
不完整性主要体现在大数据本身构造不完整、数据的关联不完整、数据的组合过程不完整、很多缺陷问题引起的数据不完整、事件整体不完整、政策不能延续贯彻导致的结论不完整等。
5.突发性
突发性分为正常突发和异常突发。可预测的突发称为正常突发,而数据的紊乱和突变都属于异常突发。对数据的变化主要观察突发事件的性质、突发事件的原因以及突发事件发生的时间。事件的突发并不代表没有规律,突发事件不能代表整个数据全部的特性,它仅仅是局部数据的异常。
6.政策干扰性
我国远程教学大数据受大环境影响性较大,先前政策的中断或与现有政策产生叠加造成了达不到预期目标、得不到相关数据、实现不了相应效果的局面,由此引发了数据干扰问题。
7.结果的传播性和影响性
经过大数据挖掘得到的数据结果自身有一定权威性和认可度,不管结论是全面还是片面,或是有误差的,它在公众中都具有一定的传播力和影响力。如学校排名、学科排名决定了学生报考的趋势。
8.叠加性
数据的叠加包括在主流事件上叠加小的事件以及大事件与大事件的多层叠加两种。叠加所带来的统计数据是不准确的或带有相当的偏激性和干扰性,可以先对这一阶段的干扰问题进行排除,通过研究整个过程的惯性数据来看其长期呈现的规律。但如果两个事件都同样具备长期的影响力,就要通过教学视点找出相应的因素进行干扰的排除,之后通过人为的经验进行判定。
9.数据之间的干扰性
由于多源数据中数据之间存在着同步性和由于时间的延展造成的错位性问题,使得这些数据无法达到真正的统一,一个数据的出现将会对另一个数据的判定产生参考或干扰作用。数据干扰的强弱取决于通过数据视点所观察到的数据之间的关系,这种关系的强弱决定了干扰的强弱。数据之间的干扰不一定产生的都是负面作用,要擅长干扰性分析,有时干扰还会成为辅助数据判断的因素。
内涵数据、外延数据以及没有被统计到的缺陷数据共同构成了教学的整体数据,它可以是一个校园内的全部教学及相关数据。但仅仅研究这个教学整体数据还不足以发现教学问题,必须通过将一个广域区域的内涵数据、相关外延数据、政策部门数据等全部叠加,形成大数据的整体,在大数据整体的基础上进行挖掘分析才能找到真正的教学规律。
(三)教学数据监控点与作用点
教学大数据挖掘的最终目标是通过对不同视点下教学参与者关注的教学现象的监测,完成向最优教学效果逼近的过程。因此,可以为不同教学事件设置不同的数据监控点和作用点。
监控点是指教学中为了对某些过程、现象或对象进行监视而没置的控制点。通过对监控点的监控,可以找出存在的问题,从而及时采取措施实现对相应教学问题的调整。监控点主要包括教学监控点和技术监控点。
1.教学监控点
教学监控点主要监测整个教学过程的运行状况、教学过程是否符合教学进度及要求、学习者对课程的反应和满意度、教师对学生的反应和满意度、教学进度问题、教学过程问题、教学执行过程中人的问题、教学执行过程中环境问题、教学执行过程中学生对教学服务的满意度、学习支持是否到位、学生的诉求能否得到及时回应、教学问题是否能够得到及时解决、教学实施过程是否有序进行、实践环节监控是否到位、实践环节教师指导是否到位等系列问题。如果在某个观测点上没有符合预期目标,要同时在这些点上给予相关调整。
2.技术监控点
技术监控点分为两部分:硬件技术支持和软件流程服务。硬件技术支持主要监测带宽、服务器均衡、线路拥塞、网络等技术问题,检验的是技术支持服务能否到位,能否为网络教学提供可靠安全的运行环境。软件流程服务主要监测教学系统流程设计是否符合常规操作流程,功能是否完备、运行是否正常、是否能够满足正常教学活动需求等。
作用点是对监控的问题进行应力的施加点,它位于监控点之后。系统根据不同的教学监控点获得相关信息,对于呈现的与标准不一致的问题进行相应调整,调整的程度决定了系统中反馈的作用力的大小。作用点作用在何处因问题而异,它与动作行為的滞前滞后有很大关系,即与延迟行为、组织行为、反馈速度、观测点产生的影响有关系。多数教学的作用点应该是对原来执行教学过程反馈后回到起始点开始进行修正。作用点上施加的应力或采取的策略叫做作用力,监控点、作用点与作用力的关系示意图可以借鉴工业控制模型表达为如图2所示的形式。
四、教学视点研究
教学视点是观察教学问题的角度和视野,教学视点决定了解决教学问题的态度和措施,因此教学视点的方向和广域度将直接决定教学自身的态度。教学视点分为广域视点和局域视点。广域视点是站在管理者的角度实现的教学过程调控、教学质量提升、教学能力提高、课程资源优化、教学效果推动等,而局域视点则更加着眼于具体的教学过程的控制,如考试环节、授课环节、实践环节、毕设环节等。远程教学视点是一种多源多方向的教育视点,从提升教学质量出发,站在教学系统不同角色的角度,对教学数据挖掘的方向和挖掘的区域的进行了界定,为数据挖掘的开展提供了明确的目标。
没有教学视点的数据是一个没有意义的数据。但数据本身到底是有没有意义,要根据研究视点的时间轴、类型、方向以及广域度来考虑。某些数据看起来好像与事件无关,但是如果研究出这些数据与其他数据之间的关系,这些数据就很可能具有利用价值。教育大数据的真正的特点,是让这些原来认为无价值的数据、甚至好像无关联的数据成为有价值、有关联的数据,把隐含的数据变成显含的数据。数据关系的研究价值远远大于数据源本身的研究。
五、教学大数据挖掘相关问题研究
(一)教学大数据挖掘方向
数据本身是一种标志,大数据挖掘的目标是按照标定的内容去寻找事件的标志,要挖掘现有数据的规律和思想。常规的数据挖掘都是对经典数据进行的,而经典数据的存在实质是大数据挖掘区域中很窄的一部分,是人们带有一定偏向性的理解和带有传统性的教学数据的移植,构不成大数据挖掘的前提条件,因此只能在这个小区域内讨论历史数据的特性,对于整体教学质量的提高和真正教育内涵数据的处理无法构成完整的系统和数据体系。在这种缺憾条件下,通过视点研究把所要讨论和挖掘的目标按照数据背景和教育视点进行分类,在不同的分类下挖掘不同的数据,才能有效地避免教育大数据的不相融。
大数据本身不是万能的,不是有了大数据就能解决一切问题,大数据要站在可行的、落地的角度,要承认目前历史数据的不完整性,承认目前管理思路的不连续性,承认现在政策干预导致的数据的不纯洁性,只有在这些条件下才能有效地析取出挖掘的方向和目标。因此,本研究关注的教学大数据挖掘的方向,研究的是教学大数据挖掘的构造、数据之间的关系、数据挖掘的目标以及影响数据挖掘目标的综合因素。
大数据挖掘是个庞大的工程,除了现有经典数据之外,还要扩展其他的数据来源,可以是能够被直观辨识的,也可以是不能被直观辨识的,例如语音、图像、Web网站的议论等,这些现象比给经典数据表达的含义更加明晰。虽然这些多源数据形式不同,但可以通过先进的数据处理技术完成对它们的抽取和语义分析,实现数据规律的挖掘。除此之外,还要能够根据历史数据构造和延展它的未来数据以及一些不可能获取到或不可能成为现实的数据,以此丰富教育大数据的内涵。
(二)教学大数据挖掘分类
借助教学大数据挖掘的手段确定不同教学事件相关因素的规律,首先要对教学事件有一定的视点描述和视点规划,不能是盲目的挖掘,要分析事件数据的特征,要从发展的视点去看待事件,找出事件的类型,确定事件是否值得挖掘、是否需要从历史数据开始挖掘、是否需要从各个教学中心的数据开始挖掘,只有这样才能找出教学控制中的控制因素和控制本质。因此,对教学数据的挖掘应首先对事件进行分类,根据不同的分类决定如何进行数据挖掘。对于有规律可循的事件可以通过数据挖掘找出相应的规律,对于没有规律的事件则不对其实施挖掘。有的事件本身的规律性非常明显,可以直接进行判定,则不需要对其进行数据挖掘,还有一些事件是由若干个单一事件组合形成的,单一事件的规律对于组合事件具有一定的影响力,可以通过推理寻找到组合事件的规律。具体遵从的分类及处理原则范式如下:
1.IF事件∷this.可挖掘is TRUE THEN数据挖掘
2.IF事件∷this.可挖掘is FALSE THEN无法挖掘
3.IF事件∷this.标志is TRUE THEN不必进行数据挖掘
4.IF事件∷this.组合事件is TRUE THEN根据其他事件和数据的组合推断规律
(三)教学大数据挖掘区域
教学事件的发生具有一定的时域性,直观体现在时间轴的某个区域内,同时还会通过波形的变化表现出事件的特性。因此,教学大数据挖掘还可以从时间轴的角度来研究事件发生的区域,通过找出时间轴相关区域内波形与波形之间的规律可以找到事件与事件之间的规律。同时还可以通过波形的分析找到各教学中心之间的同步规律、某个主站发生的问题到分站后波及、影响和衰减的规律,为主站与教学中心以及教学中心间相互借鉴事件发生规律和事件处理经验提供一定的依据。
依据时间轴事件数据的图形特性可以确定教育大数据挖掘的区域,通过对图形规律的分析可以判断相应的事件及事件发生的特征。1.陡变型图形:可以判断图形的上升沿对应哪些事件的发生,尤其是进行Web主动式搜索时,图形的波形越陡,说明事件的严重程度越高。2.持续型图形:由于受到大环境、政策和思潮的影响出现连续的大事件,形成有一定规律特征的持续图形。3.叠加型图形:表示的是多个事件的组合,需要对不同的事件进行分类,可以引用连续小波方法进行缩放位移比对,找出各事件的类型和性质。4.分布型图形:当数据在广域多个网站和平台同时出现,或者短时间内相继出现,或者滞后发现相似规律的图形,就需要对各个教学中心进行图形分析,找到事件的共性。5.偶發型图形:对于在时间轴上发生的重复性偶发事件,可以通过找出历史时期所发生的事件与当今事件的关系来判断相应的事件特性。6.组合型图形:组合型图形诱发了事件的关系组合,由某些小事件可诱发另一个大事件的组合,可通过对小事件的特征分析,推断大事件的事件特性。 以上图形的数据形成可以是经典数据现象、Web数据现象或图像语义分析数据现象,也可以是三者数据的组合现象。
(四)教学大数据挖掘方法
基于教学视点确定了数据挖掘方向和挖掘区域之后,本团队展开了针对多源异构教育数据的挖掘方法研究,图3所示为多源异构数据挖掘的逻辑示意图。挖掘过程共分为三层,底层的数据层是多来源多形态的数据集合,可以是结构化、半结构化或非结构化的数据,这些数据经过语义层的分析,进行不同的归类,为进一步的挖掘做好准备。结果层针对不同的数据类型采用相应的方法实现数据结果的判定。
经典数据的挖掘是在教育视点的前提下对相关数据以及相关联数据进行挖掘的过程,通过挖掘找出数据的因果关系和相关关系,找出相应的事件关系和规律。采用改进的K-MEANS聚类等算法实现了经典数据挖掘。
图像数据的挖掘是在教育视点给定的有限方向和区域内进行挖掘。通过图像数据语义的分析,找到相应图像的判定结果,给出更加直观的数据现象,如本团队开发的考场监控系统实现了教学监控大数据挖掘。图像数据挖掘在某种程度上更加直观和易于理解,它的判定结果对经典数据挖掘结果是—种有效的匹配和验证。采用基于骨架特征提取的行为分析数据挖掘方法实现了图像数据的挖掘。
通过在Web网络中搜索网站的点击率、网站的议论以及手机相关信息并对其进行分析,站在教育视点广域的角度上完成有限的网站和相关的手机群的数据语义挖掘。通过语义分析找出学习者对教育问题的诉求,找到他们在教学视点问题上对资源的评价和对教学评价等信息,利用基于关键字抽取的文本聚类算法实现了Web数据挖掘。
以上几种数据挖掘的现象和结果是相辅相成的,它们对于事件的分析形成了统一的认识。这种挖掘的综合结果更加客观、直观,为教学数据挖掘提出了一种更广阔的思路。
六、教学数据视点研究
教学数据视点研究的是看待数据的立场、目标和态度,它是一个综合视点。人们在观察事物的时候通常带有一定的态度,因此观察数据时也会具有一定的观点。数据视点本身含有一种主观性,是将获取的客观数据根据主观的态度进行分析,将多种数据和事件的判定进行综合,找出教学的综合观点。由于分析者本身带有视点的感情和情绪,所以分析的立场各不相同,分析数据的关注度也各不相同。教学数据视点是基于教学数据基础上,结合观测者本人的视点以及他所研究的视点需求的基础上,提出自己对数据处理的概念。教学数据视点的观测应具备正确性、前瞻l生、延续性和科学性,研究视点的目标是通过获取数据和提取数据的手段和方法凝练出数据事实,寻找到事件的影响因素和发展趋势,同时还能根据处理的问题延伸出相应的教学策略和搜索策略。
从不同的观察角度来看待数据视点会产生不同的视点分类:1.主客观角度。从主客观角度来分,数据视点分为主观数据视点和客观数据视点。2.经验角度。从经验角度来分,数据视点分为经验数据视点和非经验数据视点。3.技术角度。从技术角度来分,数据视点分为经典数据视点、Web数据视点、图像数据视点、VR/AR数据视点。4.数据关系角度。从数据关系角度来分,数据视点分为相关关系数据视点和因果关系数据视点。
教学数据视点是从科学的角度提出的,它描述了教育研究者或者需要研究某个方向和目标的工作人员所要完成的任务,它根据需求给出了不同角度、不同位置、不同任务和不同级别的事件因素的观测点和数据的获取点。
七、实例研究
从教学的视点研究教学质量的提高,必须要先明确教学的组成部分及各部分的组成要素,本研究从远程教育中教师、学习者、管理者等不同角度描述了与其自身相关的教学问题、教学元素和教学功能,明确了每个问题的相关因素,通过对这些因素的调整和控制,可以实现系统整体教学质量的最优控制。同时它也是教学数据挖掘参考模型和设计框架,是一种数据挖掘的因果关系和线索图,为教育数据挖掘和管理设计提供了相应的思路和路线,也为相关人员解决教学问题提供了方案。
(一)学习过程教师视点
表1所示为远程学习过程中教师视点示意表,该表呈现了教师在教学中关心的教学范围,包括备课资源、评价获取、课程基础、学生层次、大纲进度、辅导团队课件制作团队能力、资源平台、资源环境、作业/考核平台功能、实践环节平臺功能、支持服务平台功能、反馈功能以及与这些内容相关的一些子因素,当教师在教学中遇到相关问题时,可以通过数据挖掘获取该问题的子因素并对其进行分析获得解决思路,也可以明确通过哪些子因素的改善可以达到问题的最优,同时还可以借助大数据挖掘的手段获取相关的数据信息和规律,为问题的解决提供有效的依据。
(二)学习过程学习者视点
表2所示为远程学习过程中学习者视点示意表。从学习者的角度看待教学,他们所关心的问题包括资源质量、教师质量、作业/考核、教学环境、资源评价、实践环境和学习支持。根据这些模块中所涉及的信息特征,系统可以分别去挖掘相关的数据为学习者的学习提供有效的支持。
(三)学习过程管理者视点
远程教学系统的管理者视点是站在系统宏观管理的角度来看待教学中的相关事件,他所关心的是学习者的学习行为、教师的教学行为、学习者和教师之间的关系、学习者和教学进度的关系、教学支持服务、教学环境以及教学突发事件的处理。管理者的关注点与教师和学生不同,关注的事件延展性更强、涉及的时间轴跨度更大、教学数据的获取范围更广,更加侧重于教学系统整体与目标的接近度。表3所示为学习过程管理者视点示意表,表中呈现了不同的教学事件及其相关因素,为数据挖掘提供了[长1[宽]两种不同的思维角度,其中[长]是从时间轴的角度对数据进行历史性分析,代表了对历史数据的挖掘,[宽]是从教学覆盖范围的角度对数据进行分析,主要指对各教学中心数据的挖掘。通过相关的事件的分析和挖掘,可以为教学质量的评价提供可靠的依据。
(四)学习过程资源设计视点
教学资源是教学质量的重要组成部分,资源设计的质量直接决定了学生的学习兴趣度、学习深入度和学习效果。下页表4所示为学习过程资源设计视点示意表,呈现了资源设计中相关的事件及影响因素。优秀的学习资源应该具备良好的开发团队,不仅要从内容上与教学大纲知识点相吻合,更需要注重资源效果的展示。远程的网络教学中,教学资源是教学的命脉,除了教师要具备良好的教学素质之外,资源是否能够吸引学生是提高他们对课程关注和学习的重要环节,因此,课程的编导比传统教学方式显得更为重要。要将教师对知识和学科的理解融入教学资源设计中,加入影视资源设计的理念,针对不同层次的学习者设计不同风格和类型的资源,要能对资源进行碎片化管理,使学生可以根据个人的关注度对资源进行自由裁剪,要扩展资源的获取手段和方式,利用先进的技术从网络中不断获取最新的教学资源。资源使用效果的评价是资源设计的重要反馈环节,通过学习者对资源不同渠道、多种方式的反馈,可以实现对资源的不断修正,从而达到资源质量的最优控制。
(五)教学事件处理视点
远程教学由于其本身的特殊性,呈现出了传统教学所不具备的特性,如教学环境复杂、学生分布广、学生水平层次不同、师生交互受限等。在这种7*24小时不间断的教学环境中,对教学事件的及时有效处理成为了保障教学秩序的非常重要的环节,尤其是对于突发事件,要能够做到及时检测、分析和处理。通常情况下,教学事件的产生具有一定的前兆性、关联性和预测性,要想处理好当前发生的事件,必须要了解和挖掘与之相关的现象和信息,从这些数据中推断出事件的起因、涉及的因素等信息,从而为决策提供有效的依据。除此之外,利用数据挖掘的手段,通过对历史数据的波形分析,找到事件发生的规律,实现教学事件的预测,对于远程教学具有非常重要的意义。表5为教学事件处理视点示意表。
(六)教學实例
基于以上大数据挖掘模式和教学管理视点,本团队实现了北京理工大学远程教学平台的教学作弊行为监控子系统。系统站在教学管理者对教学事件处理的视点上,利用了多源异构数据源的理念,从经典数据、Web网络数据和视频监控数据的角度,获取了考试成绩、考试结束后学生在Web讨论群中对于考试的议论信息以及考试过程中的视频监控数据三类数据源。对于经典数据的处理,系统主要完成的是考试成绩与考场座位之间的关联的分析。对于Web数据的采集,系统主要获取的是远程教学网站交互系统讨论群中的数据,采用基于关键字抽取的文本聚类算法完成了关键字抽取、情感分析。对于视频图像监控数据,利用基于骨架特征提取的行为分析数据挖掘方法通过对考生头部、上身的运动方向和运动轨迹数据的提取和分析,实现了考生考场行为的监控和判断。
教学作弊行为监控子系统工作流程如图4所示。作弊行为的判断所采用的三种数据源之间相互辅佐,相互支撑,为最终作弊行为的判定起到了相互印证的作用。系统最终的判定取决于三种数据源分析结果的综合。系统中维护了判定策略库、关键字库、异常行为模板库、关联关系库等多个相关数据库,分别支撑不同的数据源的挖掘判定。最终系统根据三种数据源的分析结果进行综合,利用策略库中提供的策略方案实现作弊行为的判定输出。
八、总结
传统大数据挖掘的数据来源非常有限,挖掘结果的有效性和针对性不强。通过对其进行扩充,增加Web数据和图像数据作为新的数据源,可以有效提高数据挖掘的准确性。教学数据的挖掘应该具有明确的挖掘区域和方向,挖掘的目标不仅要寻找教学事件的因果关系,还要挖掘出事件之间的相关性和内涵性。数据挖掘的准确度以及挖掘的强度取决于看待教学的角度,论文据此提出了教学视点和数据视点的概念,通过远程教学实例研究,明确了教学视点下教学人员应具备的素质和对数据的态度。通过对数据挖掘方法的研究找出教学质量控制内涵及控制自变量属性,从而实现教学质量控制目标。