多变量时间序列的聚类、相似查询与异常检测

来源 :天津大学 | 被引量 : 0次 | 上传用户:baslove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多变量时间序列数据广泛存在于金融、多媒体、医学等领域,随着时间推移,这类数据的存储规模呈现爆炸式地增长。因此,如何有效地管理和利用这些历史数据,挖掘其内在的各种变化模式,是一个挑战性的、具有重要意义的理论和实际应用课题。该课题的研究对于我们正确认识事物变化、科学进行决策、识别各种异常行为等具有重要的指导意义。本文在分析多变量时间序列数据特点和实际应用需求的基础上,针对多变量时间序列的聚类分析、相似查询和异常检测等技术进行了研究。主要研究成果简单介绍如下:1.多变量时间序列模式表示首先提出了一种基于主成分分析的多变量时间序列模式表示方法。在实际问题的研究中,为了全面、系统地分析问题,往往要考虑众多有关变量,该方法用为数较少的、互不相关的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。2.多变量时间序列聚类分析提出一种高效的多变量时间序列聚类算法PCA-CLUSTER。已有的聚类算法大多采用k均值对低维数据进行聚类,不能对高维多变量时间序列数据进行有效聚类。首先利用主成分分析对多变量时间序列数据降维,然后通过改进K-means算法对选取的多变量时间序列的主成分进行有效聚类分析。3.多变量时间序列相似性查询提出了一种基于距离的索引结构相似查询算法Dbis。为了高效地执行多变量时间序列相似查询,在Eros相似距离度量的基础上,选择聚类质心作为参考点;依据参考点将每类变换到一维空间,利用B+-tree结构进行索引查询,实验表明查询效率和准确性都有比较大的提高。4.多变量时间序列异常检测提出了一种基于密度的多变量时间序列异常检测算法。在多变量时间序列中与其它序列显著不同的序列,称为异常序列。在k-近邻局部异常检测算法的基础上,结合基于主成分分析的降维方法,可以高效检测多变量时间序列的异常。
其他文献
《狗儿爷涅槃》和《桑树坪纪事》是新时期出现的两部优秀话剧剧作。在舞台演出上,两剧以"虚实结合"为基点,灵活借鉴传统戏曲的表现手法,在转场、舞美、表演上大胆创新,突破"
FD(I外资)流入我国有其必然性,外资极大地推动了中国经济的增长,但吸引FDI高昂成本的背后潜伏着巨大隐患。作为一个发展中大国,我们不能过分依赖FDI对经济增长的作用。给予民
考察不同培养基(①1/2M S+6-B A1毫克/升+N A A0.5毫克/升+香蕉50毫克/升;②M S+6-B A2.0毫克/升+N A A0.1毫克/升+蔗糖30克/升+琼脂3.2克/升;③M S+N A A2.0毫克/升+6-B A0.
随着新农村建设步伐的不断加快,农村环境保护问题越来越受到关注。农村环保是"三农"工作的重要内容。本文围绕农村环保问题进行分析,指出存在问题并提出建议。
1畜牧兽医工作的问题1.1思想观念落后在具体的基层畜牧兽医工作过程中,由于我国基层兽医工作者虽然大多都从事过畜牧养殖工作,但仍有少数人没有接受过现代化的高等教育,所以
摘要:本文通过对植物检疫法、栽培管理预防法、物理机械法、生物防治法以及化学防治法这五方面的叙述,简要对林业苗木春季病虫害及其防治措施进行探讨,希望能够给读者带来启发。  关键词:林业苗木;病虫害防治;植物检疫;生物防治  春季是林业苗术生长发育的重要时机,但在这个阶段中,苗术极易受到病虫害的侵蚀,因此,需要采取恰当的防治措施,避免影响苗木的质量。  1植物检疫  一般情况下,对于从外地引进的植物及
拥有150多年历史的海德堡印刷机械股份公司是全球最大的成套印刷设备生产商,也是唯一为客户提供全套印刷解决方案的厂商。海德堡中国有限公司于1998年正式成立,总部设在北京,
良好的生态环境能够为草原畜牧业的可持续发展提供可靠的保障。但就目前的发展现状来看,生态环境的保护存在明显的不足,出现了草场面积退化、草场利用不合理的情况。所以说,
农作物生长过程中会受到病虫害的侵害,影响农作物产量。近年来病虫害绿色防控技术逐步普及,该技术的推广应用在农作物病虫害防控方面取得了一定成果。
一、自然环境条件1.地理位置。阜蒙县位于辽宁省西北部,全县总土地面积400万亩,人均耕地面积5.6亩,居辽宁省各县(市)之首。全县共辖35个乡镇,1个国营农场,523个行政村。总人