面向教育数据的时间序列分类方法研究及其应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：liedh123

【摘要】

：

【作者】

：

晏莉娟

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2020年01期

【关键词】

：

教育数据挖掘时间序列分类特征提取时间序列表征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,在教育领域,教育数据呈指数级增长,教育大数据挖掘和分析的研究成果在教育教学研究与实践中发挥着越来越重要的作用,正在成为教育领域不可忽视的新型驱动力。时间序列数据是教育大数据的重要组成部分。时间序列是由客观对象的某个观测量在不同时间点的采样值并按照时间先后次序排列而组成的序列。随着网络学习资源的增加、互联网教育的兴起,教育领域中记录下了大量的时间序列数据。这些大量的时间序列数据真实地记录了学习情境中各个时刻的所有重要信息。挖掘分析时间序列数据,发现其中各时间序列之间的相互关系,获得数据中蕴含的与时间相关的有用信息,实现知识的提取,对推动改进教学、优化管理、提升绩效有着重要意义。时间序列分类是时间序列数据挖掘的重要任务之一,其基本方法可以用于回归和预测任务中去。时间序列分类在教育领域中有着非常广阔的应用前景。可以用来挖掘学习者行为模式识别、预测学生学业成绩、进行学情分析等,还可以在个性化学习支持、智能辅助教学等方面充分发挥优势,并助力于教育信息化的发展。面向教育数据的时间序列分类方法,除了要考虑时间序列本身的特殊性,如高维性、实时性、存在随机噪声以及数据元素的非线性关系等特性之外,还要顾及教育领域数据分析的特殊需求,首先要考虑分类器的有效性,分类器的无效泛化会产生学习干预措施不准确的风险。其次学习具有强辨别性的特征对于教育应用领域来说十分重要,除了能提高算法性能,强辨别性的特征能让教育决策者、教师更深入的理解学习及学习相关情境。在综合考虑教育领域数据分析的需求及时间序列本身的特殊性基础上,现有的时间序列分类方法在处理教育领域中的时间序列数据时仍存在些亟待解决问题。本文主要开展了两个部分的研究工作。第一部分,针对这些目前亟待解决的问题,相应的提出了三种新的时间序列分类方法:（1）传统的时间序列分析方法,对数据样本本身要求较高,需要满足一些假设条件,如正态假设、平稳假设、线性假设等。对于教育领域中的时间序列而言,研究对象群体的多层次结构,数据所处情境的动态性,数据记录采样的差异等都会增加面向教育的时间序列的复杂性。教育领域的时间序列数据很难单纯的满足相应的假设条件,对教育数据样本自身的特点不能很好的解读,把握了总体上的特征,时间序列中隐含的一些局部、细节特征就很难表现出来。针对时间序列全局特征和局部特征不能兼顾的问题,提出了一种基于小波和shapelet特征识别的组合分类方法（an Ensemble method by combining Discrete wavelet analysis and Shape similarity recognitionoftime series,DSE）。DSE将小波变换嵌入到shapelet的提取过程,在分解后的时域数据而不是原始的时间序列基础上提取shapelet信息。离散小波变换（Discrete Wavelet Transformation,DWT）是具有多分辨率“变焦”特性,其多分辨分析能将时间序列中交织在一起的不同频率组成的混合信号分解为不同频带的子信号。分解重构后的各分量从近似和细节方面分别体现了原始时间序列的全局特征。对于利用不同分量上提取的shapelet转换后的数据,考虑到不同分量上提取的shapelet之间的关联,DSE应用加权多数投票的策略,将基分类器的预测结果通过分解时域数据之间的相关性加权后取得分类标签,在此过程中应用蒙特卡洛法优化权重组合,以求局部的最优值。实验结果证实了该方法在不同类型的数据集上都有着很好的泛化能力。（2）在教育领域的应用中,除了良好的分类精度外,还希望建立一个具有可解释性的分类器。抽取强辨别性特征是分析教育领域中时间序列的重要一环,而时间序列高维度,没有明确特征,很难构建出可解释性的分类器。针对这一问题,提出了一种新颖的可用于时间序列分类的特征重构方法——间隔特征转换（Interval Feature Transformation,IFT）方法。利用感知重要点将时间序列划分为不等长的时间序列片段,从时间序列片段中提取的特征构成一个间隔特征向量,这种间隔特征向量能“以小见大”的反映时间序列的局部特征,可以用作区分时间序列类别的依据。IFT方法利用信息增益区分最有辨别力的k个间隔特征向量,并利用这k个最有辨别力的间隔特征向量将原始的时间序列转化为一个k维的数据集,实现了数据降维。它将原始时间序列转化为一个低维、降噪的表示,任何传统的机器学习分类器都可以对由IFT方法转换后的时间序列数据进行处理,以追求更高的分类性能。实验研究证实了该方法的有效性、噪声鲁棒性及可解释性。（3）针对特征量不能自适应选择的问题,在符号聚合近似（Symbolic Aggregate approXimation,SAX）的基础上,提出了一种基于多特征 SAX（an improved Symbolic Aggregate approXimation similarity measure based on multi feature and Vector Frequency Difference,SAXVFD）的时间序列分类方法。从两个方面改进了原始的SAX时间序列相似性度量方法。首先,通过下界距离紧密性（Tightness Of Lower Bound,TLB）自动优选特征组合,以用于映射成相应的特征串向量。接着,对传统的时间序列距离度量方法做了改进,在传统SAX中的距离度量方式基础上引入了向量频率差（Vector Frequency Difference,VFD）,以向量频率差作为不同特征距离上的权重,该距离度量依然能下界于欧式距离。为了验证方法的有效性和效率,我们结合1-NN算法在大型公开数据集上进行了时间序列分类的比对实验。实验结果该方法能有效的提取特征,有着不错的分类精度和降维效率。第二部分,将本文提出的基于特征提取的时间序列分类方法,应用到具体的教育场景中,进行了一项有关在线学习者参与模式识别的应用研究。针对以往参与度研究中,利用学习结果评估,忽略了学习过程,且容易对学习者造成干扰的问题,提出了一个应用教育数据挖掘技术自动评估在线学习者参与度的框架,利用海量的在线学习数据对学习者的学习过程中的投入进行精准评估。这个框架描述了利用在线学习管理系统中的学习数据,使用聚类算法并进行分群质量评估,以检测学习者的参与模式,然后利用学习过程中的时间序列行为数据,使用基于特征抽取的时间序列分类算法,挖掘分析一定学习周期内不同参与模式类型的学习者辨别性参与特征的过程。针对该具体的教育应用场景,在充分探讨了前文提出的三种新方法的适用性基础上,针对分析需求,利用改进后的基于间隔特征转换的方法,对KDDcup2015数据集中学堂在线的学习中的日志数据进行分析,在对提取的辨别特征分析的基础上,提出了相应的干预措施。实验研究结果表明,该框架能自动识别学习者在学习过程中的参与程度,提出的时间序列分类方法能在不同参与模式中有效的提取辨别性特征,最终为教学干预提供数据支持,极大的降低了学习支持服务的成本。

其他文献

新时代我国文化领导力建设战略研究

学位

基于多中心城市空间结构的武汉市就业-居住关系研究

随着城市的发展,人口集聚导致了诸如交通拥堵、环境恶化等城市问题,为解决这些问题,多中心空间结构成为城市空间发展的新趋势。然而如何在多中心规划中建立合适的职住体系尚未找到有效的解决方式。一方面,多中心就业-居住的总量不平衡,使得新城的就业吸引力不足,导致“卧城”的产生。另一方面,多中心规划实践还存在就业-居住的结构性不匹配问题。论文以武汉市为例,试图从多中心识别、就业-居住总量匹配、就业-居住结构匹

学位

多中心职住空间匹配通勤蒙特卡洛模拟影响因素

缅甸小学教师创新工作行为改进研究：变革型领导和教师信任的作用

在减少贫困率和促进和平方面,教育起着至关重要的作用。同样,教育时代对每个组织都提出了许多挑战,进而导致他们必须创新工作以实现其既定的组织目标。因此,为了赶上国际标准,缅甸正通过课程改革以掩盖缅甸长期落后于发达国家的危机时代。它承担着对教师,尤其是在塑造儿童灵魂方面起首要作用的小学教师,承担着实施课程改革的责任。由于小学教师是创新发展的关键参与者,因此,他们的创新工作行为在教育领域至关重要。为此,寻

学位

创新工作行为变革型领导教师信任同事信任校长信任小学教师

湖湘老学研究

学位

胡北省贫困地区县级公共图书馆服务水平综合评价

学位

几类非局部椭圆型方程（组）解的存在性及其性态研究

本文主要研究几类典型的非局部椭圆型方程与方程组解的存在性、多解性以及解的性态等.全文共分五章:在第一章中,我们先概述本文所研究的几类非局部问题的背景以及国内外的研究现状,并简要介绍本文所做的主要工作以及相关的预备知识和一些记号.在第二章中,我们考虑下述奇异扰动非局部椭圆方程其中ε>0是一个参数,a>0,b>0为常数,α ∈（0,3）,p ∈（2,6-a）,Wα（x）为卷积核,V（x）是位势函数满足

学位

非局部椭圆问题Kirchhoff-型方程分数阶Laplacian方程组Kirchhoff-Schroinger-Poisson方程组Hartree-型非

融入高阶行为特征的在线学习预警模型研究

在线教育蓬勃发展,在线学习与线下教学并驾齐驱,已成为教育的常态。随着在线学习者人数的增加,在线学习的课程通过率和获取证书的学习者人数却反而下降,高注册率、低参与率、高辍课率,成为在线学习急需解决的问题之一。如果能够依托大数据处理技术,根据学习者现有大量的在线学习行为,就能预测出学习者下一步可能做出的学习选择,对面临学习困境或辍课危险的学习者进行及时预警,教师就有可能及时做出干预措施,帮助其顺利完成

学位

在线学习学习分析教育大数据学习预警学习预测学习行为建模

基于磷酸氢钙的有机—无机杂化纳米材料在生物分析检测中的应用

在生物分析检测中,酶法分析是一类较为常见的分析检测方法。如酶联免疫吸附试验（ELISA）,它就是一种基于酶来进行信号放大的特异性的免疫检测方法。但是,由于通常一个酶分子只结合一个分子的分析物。这会限制其检测灵敏度的提高。而纳米材料可以在一个纳米颗粒上同时结合多个酶分子和识别分子,所以纳米材料可以用作载体实现其信号放大和灵敏度的提高。本论文以基于磷酸氢钙（CaHPO4）的有机-无机杂化的纳米材料为研

学位

磷酸氢钙杂化纳米材料信号放大生物分析检测

非洲大陆国家在武汉的学生组织：形成、作用与动态

本文旨在研究在以国家为单位组织的非洲大陆国家驻武汉学生协会的形成,作用和动态。研究对象为来自加纳,喀麦隆,博茨瓦纳,坦桑尼亚四个国家的学生协会。研究中涉及的学生协会/联合会均是由非洲在华留学生组成的,他们认为有必要创建一个由来自各自国家的学生组成的共同平台,以方便讨论各种学生问题（如社会问题,文化问题,学术问题,经济问题,医疗问题）,此外,协会的建立也是为了给聚居在不同地方的学生协调活动提供便利。

学位

非洲学生协会/联合会武汉小团体动力学

甲基二磺隆对麦田根际微生物群落的影响及其与有机肥的联合效应研究

甲基二磺隆作用于乙酰乳酸合成酶（Acetolactate Synthase,ALS）,使用量大,降解半衰期长,可能会危害土壤生态。畜禽有机肥的使用对改良土壤肥力和改善土壤微生物组成具有重要的作用。甲基二磺隆与有机肥共同使用后,对土壤理化性质、土壤微生物影响尚不明确。因此,本试验选择东北黑土和河北潮土 2种土壤,设计了小麦全生育期的温室栽培试验,试验处理为:清水对照、低剂量甲基二磺隆处理、高剂量甲基

学位

甲基二磺隆有机肥农药降解根际微生物土壤理化性质微生物群落结构

面向教育数据的时间序列分类方法研究及其应用

与本文相关的学术论文