【摘 要】
:
随着社会发展,数据类型愈发多样化,时间序列数据是随时间变化生成的一系列连续实值,通常在时间上存在前后关系,它的特点是数据量大、数据维度高以及随时间变化更新。对时间序列数据进行分类是数据挖掘领域重要研究内容,考虑到时间序列数据通常是在一段子序列中表现出类别之间的差异,因此shapelet作为具有较高区分度的子序列也就引起重视。基于shapelet的时间序列分类算法具备可解释性、分类速度快、分类准确率
论文部分内容阅读
随着社会发展,数据类型愈发多样化,时间序列数据是随时间变化生成的一系列连续实值,通常在时间上存在前后关系,它的特点是数据量大、数据维度高以及随时间变化更新。对时间序列数据进行分类是数据挖掘领域重要研究内容,考虑到时间序列数据通常是在一段子序列中表现出类别之间的差异,因此shapelet作为具有较高区分度的子序列也就引起重视。基于shapelet的时间序列分类算法具备可解释性、分类速度快、分类准确率高的特点,当前仍需改进的问题有shapelet的提取消耗大量时间以及多类时间序列数据分类准确度不理想,因此本文的相关研究工作如下:(1)针对基于从原始时间序列数据集中直接提取shapelet消耗大量时间的问题,提出一种基于相似性度量改进方法的shapelet学习算法。首先将局部敏感哈希函数和动态时间扭曲距离结合生成一个相似性度量改进方法,对数据集进行预处理,去除大量相似序列避免相似shapelet生成;然后再通过学习函数学习出具有较高区分度的shapelet;最后使用生成的最终shapelet集对时间序列数据进行分类。选取UCR中15个数据集进行实验,同多种时间序列分类算法进行对比,在12个数据集的分类准确率上处于领先。实验时间消耗对比中,在15个数据集的表现均优于其他三个基于shapelet的时间序列分类算法。(2)针对现有shapelet质量评估标准存在不足,无法从多类数据中提取出代表一类时间序列的shapelet,从而导致多类数据分类准确率不高的问题,提出一种shapelet提取的改进算法。将改进算法提取出的shapelet命名为单类shapelet,它是通过将它来源的时间序列类,与数据集中其他所有类区分程度来评估质量,又提出长度参数估计算法来确定shapelet的长度范围,最后使用提取出的单类shapelet将时间序列数据转换成普通数据,再使用1NN算法对数据进行分类。选取UCR数据集中9个多类时间序列数据进行实验验证,在与多种时间序列分类算法对比后,本文提出算法的分类准确率在实验对比中具备优势,与传统shapelet转换数据的算法对比中,在其中7个数据集的分类准确率中具有优势。
其他文献
个性化位置推荐算法研究是近年来一个热门的讨论话题,而社交媒体平台中大量签到数据的收集使得平台向用户提供精准的位置推荐服务成为可能。现有的工作通过研究用户历史签到数据中蕴含的时空信息,向用户提供位置推荐服务。然而现有算法却忽略了用户行为的时间相关性以及同类型位置在空间的聚集分布对用户位置访问的影响;此外,现有算法忽略了用户在跨域位置访问场景下特有的时空访问模式。针对上述问题,本文进行如下研究:(1)
近年来,随着空间感知能力和点云大规模处理技术的愈加成熟,基于激光的三维扫描技术已经广泛应用于实时导航、虚拟现实、建筑信息模型建模等各个领域中,而点云分割技术是面向这些应用领域的必要技术之一。点云分割是对点云模型进行有效利用的关键技术,点云分割技术实现了对点云模型的分而治之,无论是识别还是分类都需要先对点云进行分割提取,提高点云分割精度与效率是目前主要的研究方向。本文提出基于图卷积神经网络的点云特征
文物是最具有代表性文化遗产的瑰宝。由于传统人工复原效率低下,且会对文物造成损坏,使用计算机对文物进行数字化保护与复原成为必要的趋势。其主要应用于对文物碎片分类,匹配,拼接以及孔洞修补。文物碎片数量庞大,形状既不规则又不完整,表面几何纹理特征复杂,如此本文以兵马俑碎片的三维模型作为研究对象,展开对文物碎片的分类相关技术研究,主要的研究内容如下:1.针对三维模型的特征提取只能提取局部表面几何特征,而丢
本文以教育学习理论、教育心理学为指导,采用问卷调查的方法,对江苏省张家港市乐余高级中学高一学生进行了抽样调查和分析,力求从中概括出造成农村高中化学学习成绩差异的非智力因素,并提出了相应的教育教学对策。
在古代瓷器鉴定领域,判定这个瓷器的生产年代、它的烧制窑口、它的所属类别这些问题依旧是陶瓷考古的重要内容。在古代文物的保护与研究过程中,经常会发掘出大量古代瓷器碎片,这些混杂在一起的文物碎片属于不同的类型,来自不同的器物和产自不同的年代,从而加重了碎片分类的工作量,影响了瓷器复原的速度,不便于文物的管理和保护工作。本文围绕古代瓷器碎片的自动分类问题,通过理论分析、数据集制作、方法设计与实验对比,分别
我国寒武系产有非常丰富的古生物微体化石,出现了很多与现代生物完全不同的生物种类,它们对地球上早期生命演化和寒武纪生命大爆发具有非常高的研究价值。但是由于微体化石个体微小,传统的微体化石分拣工作都是通过人工在显微镜下逐个观察挑选完成,该方式效率低下。近年来,图像识别技术在各个领域被广泛研究应用,在此背景下,将图像识别技术引入到微体化石研究工作中,无疑会提供很大的便利。针对不同场景下的微体化石识别问题
JavaScript是一种流行的、平台无关的编程语言,为了保证JavaScript程序在不同平台上的互操作性,JavaScript解释器(即引擎)的实现必须符合ECMAScript-262标准。然而,标准的频繁变动使得引擎开发者往往难以做出及时的更新,从而使JavaScript引擎出现不符合标准的行为,即一致性缺陷。一致性缺陷不但会导致正确的JavaScript脚本在运行后得出错误的结果,还有可能
书法是中国汉字特有的一种书写载体,从甲骨文、金文、隶书等逐渐发展变化出楷书、草书、行书等书法。现今,使用纸张和碑刻作为书法作品传承的载体非常不易保存。氧化、虫蛀、风蚀等自然因素和战乱、损毁等人为因素都对书法作品保存造成了非常大的影响。所以,使用现今的科学技术对中国的书法古籍和碑文等进行虚拟修复和是非常有意义的工作。在计算机视觉领域中,使用卷积神经网络进行分类和特征提取,使用生成式的神经网络进行图像
化石图像作为化石标本的信息载体,是古生物学者之间讨论古生物分类学和系统学的重要依据。准确且自动化的化石图像检索,不仅有助于古生物学者建立生物演化关系,而且有助于古生物爱好者学习古生物知识。虽然使用常规计算机图像领域的方法可以对化石图像进行自动化识别和检索,并可以有效减轻化石图像检索过程中的错误率和主观性,但是,存在两个主要的问题:一是真实的化石图像数据量不足,导致模型泛化性能低;二是化石图像中主体
人机对话(Human-Computer Dialogue)是人工智能的重要应用之一,其特点是可以自动地生成对话回复与人进行交谈,而备受研究者的关注,其目标是希望生成的对话回复语句更加多样,富有情感,贴近人类的真实对话。在对话生成领域中,研究人员开始使用Seq2Seq模型进行实现,取得了一定的进步,提高了模型的适用性,但由于对话语境的复杂性,主要存在以下缺点:模型容易生成通用回复,语句质量较低,会导