时间序列的相似性查询与异常检测

被引量 : 0次 | 上传用户:boli257758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列,在经济、金融、科学观测和工程等各个领域都广泛存在。如何有效地管理和利用这些历史时间序列,发现这些数据背后隐含的规律和知识,是人们广泛关注的问题。与传统时间序列分析提出假设然后进行验证的数据处理方法不同,时间序列数据挖掘适合发现型任务,能够从大量历史数据中挖掘出潜在的、未知的、有价值的知识,已经吸引了越来越多的关注。 目前,时间序列数据挖掘主要包括相似性查询、序列挖掘、分类、聚类以及异常检测。论文主要研究了相似性查询与异常检测,包括时间序列的模式表示、相似性度量、索引和查询、异常定义和检测,主要的研究内容和研究成果简单介绍如下: (1) 时间序列的模式表示 由于时间序列数据的海量和复杂数据特点,直接在时间序列上进行数据挖掘不但在储存和计算上要花费高昂代价而且可能会影响算法的准确性和可靠性。时间序列的模式表示是一种对时间序列进行抽象和概括的特征表示方法,是在更高层次上对时间序列的重新描述。论文首次将边缘算子引入时间序列研究,提出了基于时态边缘算子的分段线性表示方法(简称为TEO表示)。TEO表示简单直观,具有数据压缩和除噪能力。在不同领域的时间序列数据集上的实验表明:与其它几种分段线性表示相比,TEO表示与原始时间序列之间的拟合误差更小,具有很强的适应性,能够应用于不同的数据特征环境。 (2) 时间序列的相似性度量 欧几里德距离和动态时间弯曲距离是时间序列数据挖掘中主要采用的两种相似性度量。但是欧几里德距离不支持时间序列的线性漂移和时间弯曲,动态时间弯曲距离则因为平方阶的时间复杂度无法得到广泛的应用。论文在时间序列的模式表示基础上,提出了动态模式匹配距离(简称为DPM距离),DPM距离支持时间序列的时间弯曲,时间复杂度随着模式长度的增长而接近线性。在仿真数据集和人脸图像识别数据集上的实验表明:采用DPM距离的Knn方法在分类准确
其他文献
以草莓和牛奶为主要原料 ,通过乳酸菌发酵 ,研制出草莓牛奶混合发酵酸乳。其最佳工艺参数为 :草莓浓缩果汁用量为 2 0 % ,蔗糖、琼脂添加量分别为 1 0 %和 0 .4% ,接种量为 6
现有的岗位评价技术要么完全是定性的评价(排序法、分类法),要么完全是定量的评价(因素对比法、因素计点法、海氏评价法、主成份法)。岗位的相对价值需要按多个报酬要素来进
边缘检测是图像处理与分析中最基础的内容之一,也是至今仍没有得到圆满解决的一类问题。图像的边缘包含了图像的位置、轮廓等特征,是图像的基本特征之一,广泛地应用于特征描
面对急剧增加的农田水利建设,如何管理和使用好,最大限度地发挥其经济效益和社会效益,不仅是各级党委和政府关注的重点工作,也是负有经济监督职能的审计部门的工作重点。本文
目的探究肝胆结石术后再次手术的原因分析及防治对策。方法随机选取并回顾分析2004年1月至2007年1月于我院肝胆结石术后再次进行手术患者145例,根据结石首发部位分为3组,其中
本文主要以当前中外文化研究和跨文化交际研究以及语言、文化与翻译的关系研究所取得的成果作为理论基础,把翻译置于文化语境之下进行研究,阐述了归化与异化的本质,以及他们
西方心理学研究中的多元文化论是在美国社会人口构成发生了重大改变,有色人种人口比例增加,白色人种人口比例减少的社会现实下,在后现代文化哲学思潮的影响下,在心理学研究与
本研究针对本病从现代医学和祖国医学两方面对其发病机理及治疗、进展进行了系统的论述。俞募通经针法是孙远征教授多年临床实践总结,用于治疗青春期无排卵性功血。 本文3
无排卵是引起如不孕、闭经、功血等妇科常见病、疑难病的主要病因,因此,促进卵巢功能、诱发排卵是妇科工作者面临的一个重要课题。中医古籍无“无排卵”的称谓记载,但认为其
目的比较分析三种常用方法治疗产后痔疮及护理的临床效果,旨在旨在探寻一种更为有效的方法和护理对策,以此减轻产妇的痛苦,促进其尽快康复。方法随机选择102例发生产后痔疮且