基于随机特征采样的时间序列分类算法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tenhuanggou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列分类是时间序列研究的关键部分,为了高分类的准确率以及算法执行的效率,本文出了基于特征采样的时间序列分类方法。时间序列数据往往具有不等长的特性,常规的机器学习以及深度学习方法无法直接应用于时间序列分类问题。传统的时间序列分类算法主要有两种,一种是基于距离的算法,通过设定距离函数,找到与给定时间序列最相近的查询序列,另一种是基于特征取的算法,通过取时间序列的主要特征信息来进行分类。特征取方法相比于基于距离的分类方法,具有分类准确率高的优点,但是需要花费大量的时间进行特征取,如何设计简单高效的特征取方法,从而将时间序列问题与机器学习方法相结合,是本文的核心研究内容。本文通过特征采样方法将不等长的时间序列数据集转化为具有等长特征维度的数据集,主要包括简单随机特征采样方法,等时间间隔特征采样方法,分段随机特征采样方法。相比于以shapelet方法为代表的传统特征取方法,本文出的特征采样方法计算过程简单,无需进行大量的计算,同时,对于原始时间序列的特征取具有无损性。此外,对于特征采样算法中包含的参数,本文使用改进后的交叉验证方法对其进行调整和确定,高了分类的准确率。在对分类器的设计上,本文结合LSTM神经网络分类器与softmax分类器的优点。本文将特征采样后的数据集作为LSTM的输入,将LSTM的输出作为softmax分类器的输入,得到类别的概率值。同时,本文出了针对时间序列分类的增量学习方法,使模型可以更好的适应新的数据。UCR数据集上的实验结果表明了本文出的基于特征采样的时间序列分类算法在大部分数据集上具有较高的准确度。随着互联网时代的兴起,时间序列数据集的数据量也呈现爆炸增长的态势。然而,由于大多数的时间序列分类算法均在内存中完成,因此不适用于处理海量的时间序列。针对海量时间序列分类问题,本文出SFSC_MR算法(分段随机特征采样算法并行化)。本文定义了时间序列的近似化位图表示,利用近似化位图表示,得到海量数据的划分索引,从而在Map-Reduce阶段利用划分索引切分数据,保证负载均衡。该算法分为两个阶段,预处理阶段和查询阶段,预处理阶段负责时间序列位图的计算,海量数据的划分,以及分类模型的训练。在查询阶段,负责进行时间序列的分类。实验结果表明,SFSC_MR算法可以有效处理海量数据分类任务。
其他文献
在信息检索过程中,在选择相关信息结果时,摘要常被用来支持用户快速、准确得进行判断。一种强调简洁(较短的长度)和简单(比较少的复合句)的指示性摘要被提出来,称之为“一瞥
随着我国经济实力的不断增强,大量的私家车进入了普通群众的生活中,机动车辆的管理工作也成为城市发展亟待解决的问题。传统的人工管理方式不但成本高而且效率差,在交通管理
随着高校后勤社会化改革的不断深入,绝大多数的高校餐饮部门已经走上了市场化的道路。作为一个经营实体,高校餐饮部门不仅要为全校师生提供高质量的餐饮服务,还要维持其自身的生
大数据时代最重要的不在于“大量的数据”,而在于思维的变革,变革之一即是从注重因果关系到注重相关关系。因果关系即是“为什么”,是导致事物发生的根本原因,而这常常是难以捉摸
数字水印作为一种有效的数字产品版权保护和数据安全维护的技术,是国际上信息安全领域内的一个前沿课题。目前的数字水印技术在水印嵌入过程中,大都改变了原始数字作品的信息
计算机软件、硬件技术以及网络技术的快速发展,不断地为各行各业带来新的契机。同时人们也意识到大量的计算资源、存储资源闲置不用造成的浪费不利于社会的发展。因此人们将目
企业应用集成(EAI)技术是一个非常广泛的议题,它主要是实现并简化异构系统间的互连,解决目前大型企业各类应用迅速增加但应用之间缺乏有效通信的问题。EAI技术在许多行业如电信
数据挖掘是数据库研究领域中最活跃的分支之一,在科学研究和银行、电信、保险、零售等应用领域都取得了很多的成果。但数据挖掘也带来了一些社会问题,尤其是信息安全和隐私保护
随着语义网络技术的发展,越来越多的领域运用本体来描述领域内的知识。比如,本体被用于生物工程来描述基因信息,被用于企业内部来描述企业的各种资源,也被用于金融行业来描述
摘要:云计算是伴随着互联网技术的进步而产生的一种以服务的方式提供动态可伸缩的虚拟资源的新型的计算模式。随着云计算的发展,科学工作流将逐渐在云计算中得到应用,目前越来