论文部分内容阅读
近年来,在教育领域,教育数据呈指数级增长,教育大数据挖掘和分析的研究成果在教育教学研究与实践中发挥着越来越重要的作用,正在成为教育领域不可忽视的新型驱动力。时间序列数据是教育大数据的重要组成部分。时间序列是由客观对象的某个观测量在不同时间点的采样值并按照时间先后次序排列而组成的序列。随着网络学习资源的增加、互联网教育的兴起,教育领域中记录下了大量的时间序列数据。这些大量的时间序列数据真实地记录了学习情境中各个时刻的所有重要信息。挖掘分析时间序列数据,发现其中各时间序列之间的相互关系,获得数据中蕴含的与时间相关的有用信息,实现知识的提取,对推动改进教学、优化管理、提升绩效有着重要意义。时间序列分类是时间序列数据挖掘的重要任务之一,其基本方法可以用于回归和预测任务中去。时间序列分类在教育领域中有着非常广阔的应用前景。可以用来挖掘学习者行为模式识别、预测学生学业成绩、进行学情分析等,还可以在个性化学习支持、智能辅助教学等方面充分发挥优势,并助力于教育信息化的发展。面向教育数据的时间序列分类方法,除了要考虑时间序列本身的特殊性,如高维性、实时性、存在随机噪声以及数据元素的非线性关系等特性之外,还要顾及教育领域数据分析的特殊需求,首先要考虑分类器的有效性,分类器的无效泛化会产生学习干预措施不准确的风险。其次学习具有强辨别性的特征对于教育应用领域来说十分重要,除了能提高算法性能,强辨别性的特征能让教育决策者、教师更深入的理解学习及学习相关情境。在综合考虑教育领域数据分析的需求及时间序列本身的特殊性基础上,现有的时间序列分类方法在处理教育领域中的时间序列数据时仍存在些亟待解决问题。本文主要开展了两个部分的研究工作。第一部分,针对这些目前亟待解决的问题,相应的提出了三种新的时间序列分类方法:(1)传统的时间序列分析方法,对数据样本本身要求较高,需要满足一些假设条件,如正态假设、平稳假设、线性假设等。对于教育领域中的时间序列而言,研究对象群体的多层次结构,数据所处情境的动态性,数据记录采样的差异等都会增加面向教育的时间序列的复杂性。教育领域的时间序列数据很难单纯的满足相应的假设条件,对教育数据样本自身的特点不能很好的解读,把握了总体上的特征,时间序列中隐含的一些局部、细节特征就很难表现出来。针对时间序列全局特征和局部特征不能兼顾的问题,提出了一种基于小波和shapelet特征识别的组合分类方法(an Ensemble method by combining Discrete wavelet analysis and Shape similarity recognitionoftime series,DSE)。DSE将小波变换嵌入到shapelet的提取过程,在分解后的时域数据而不是原始的时间序列基础上提取shapelet信息。离散小波变换(Discrete Wavelet Transformation,DWT)是具有多分辨率“变焦”特性,其多分辨分析能将时间序列中交织在一起的不同频率组成的混合信号分解为不同频带的子信号。分解重构后的各分量从近似和细节方面分别体现了原始时间序列的全局特征。对于利用不同分量上提取的shapelet转换后的数据,考虑到不同分量上提取的shapelet之间的关联,DSE应用加权多数投票的策略,将基分类器的预测结果通过分解时域数据之间的相关性加权后取得分类标签,在此过程中应用蒙特卡洛法优化权重组合,以求局部的最优值。实验结果证实了该方法在不同类型的数据集上都有着很好的泛化能力。(2)在教育领域的应用中,除了良好的分类精度外,还希望建立一个具有可解释性的分类器。抽取强辨别性特征是分析教育领域中时间序列的重要一环,而时间序列高维度,没有明确特征,很难构建出可解释性的分类器。针对这一问题,提出了一种新颖的可用于时间序列分类的特征重构方法——间隔特征转换(Interval Feature Transformation,IFT)方法。利用感知重要点将时间序列划分为不等长的时间序列片段,从时间序列片段中提取的特征构成一个间隔特征向量,这种间隔特征向量能“以小见大”的反映时间序列的局部特征,可以用作区分时间序列类别的依据。IFT方法利用信息增益区分最有辨别力的k个间隔特征向量,并利用这k个最有辨别力的间隔特征向量将原始的时间序列转化为一个k维的数据集,实现了数据降维。它将原始时间序列转化为一个低维、降噪的表示,任何传统的机器学习分类器都可以对由IFT方法转换后的时间序列数据进行处理,以追求更高的分类性能。实验研究证实了该方法的有效性、噪声鲁棒性及可解释性。(3)针对特征量不能自适应选择的问题,在符号聚合近似(Symbolic Aggregate approXimation,SAX)的基础上,提出了 一种基于多特征 SAX(an improved Symbolic Aggregate approXimation similarity measure based on multi feature and Vector Frequency Difference,SAXVFD)的时间序列分类方法。从两个方面改进了原始的SAX时间序列相似性度量方法。首先,通过下界距离紧密性(Tightness Of Lower Bound,TLB)自动优选特征组合,以用于映射成相应的特征串向量。接着,对传统的时间序列距离度量方法做了改进,在传统SAX中的距离度量方式基础上引入了向量频率差(Vector Frequency Difference,VFD),以向量频率差作为不同特征距离上的权重,该距离度量依然能下界于欧式距离。为了验证方法的有效性和效率,我们结合1-NN算法在大型公开数据集上进行了时间序列分类的比对实验。实验结果该方法能有效的提取特征,有着不错的分类精度和降维效率。第二部分,将本文提出的基于特征提取的时间序列分类方法,应用到具体的教育场景中,进行了一项有关在线学习者参与模式识别的应用研究。针对以往参与度研究中,利用学习结果评估,忽略了学习过程,且容易对学习者造成干扰的问题,提出了一个应用教育数据挖掘技术自动评估在线学习者参与度的框架,利用海量的在线学习数据对学习者的学习过程中的投入进行精准评估。这个框架描述了利用在线学习管理系统中的学习数据,使用聚类算法并进行分群质量评估,以检测学习者的参与模式,然后利用学习过程中的时间序列行为数据,使用基于特征抽取的时间序列分类算法,挖掘分析一定学习周期内不同参与模式类型的学习者辨别性参与特征的过程。针对该具体的教育应用场景,在充分探讨了前文提出的三种新方法的适用性基础上,针对分析需求,利用改进后的基于间隔特征转换的方法,对KDDcup2015数据集中学堂在线的学习中的日志数据进行分析,在对提取的辨别特征分析的基础上,提出了相应的干预措施。实验研究结果表明,该框架能自动识别学习者在学习过程中的参与程度,提出的时间序列分类方法能在不同参与模式中有效的提取辨别性特征,最终为教学干预提供数据支持,极大的降低了学习支持服务的成本。