时序离群点检测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:reaker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘领域研究的重要问题之一,与其他数据挖掘研究的任务不同,离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领域得到了广泛的应用。随着时间序列数据使用的越来越频繁,时序离群点检测任务也显得更为重要。   目前虽然有许多针对时序离群点的检测算法被提出,但其中大多数算法没有考虑时序数据本身的周期性,而且离群点的判断以及离群程度和不同时间粒度相关。   本文主要针对时序离群点检测中的如上问题进行了研究和讨论,所做的研究工作和成果主要体现在以下几个方面:   (1)对时序离群点检测研究现状进行综述,并着重讨论了时序数据中的周期模式发现算法和离群点检测算法。   (2)提出了一种基于时序数据的部分周期模式发现算法PARTY。由于大部分时序数据的周期长度都是事先无法知晓的,所以需要提前给定周期长度的一类算法是不适用的。PARTY算法无需任何数据的先验知识即可得到所有周期长度下的部分周期模式,而且用户能够根据自身需求通过调节相关参数来得到想要的结果。值得一提的是,PARTY将时间信息加入模式结构,这是以往算法很少做到的,而时间信息对一些应用来说是必不可少的。我们在人工和实际数据集中分别进行了实验,结果验证了本算法的有效性。实验中还分析了参数的变化对结果的影响,这对用户选取参数值将起到指导作用。   (3)针对实值性属性的时序数据,提出了一种基于多粒度周期模式的时序离群点检测算法DOMAIN。该算法能够探测不同的时间间隔粒度下的周期模式,并利用得到的结果来发现那些偏离周期模式的离群点。该算法能够避免将较大时间粒度下的周期性正常数据误报为异常值。我们通过实验验证了算法探测周期模式的正确性以及基于多粒度周期模式的时序离群点检测算法的有效性。
其他文献
Skyline计算就是从一个数据集中找到不被其他数据点支配的所有点的集合。如果一个数据a支配另一个数据b,那么a的每一维属性值都不比b对应属性值“差”,而且必须至少有一个属
在建筑结构设计领域,随着CAD技术的发展和广泛应用,设计的过程和方式发生了根本的变化。CAD技术的出现极大的提高了设计的效率,减轻了建筑结构设计师的设计负担。建筑结构设计CA
分布式仿真是一种形成可参与的综合性仿真环境的仿真技术,它采用协调一致的结构、标准、协议等手段,通过网络环境将部署于各地的仿真系统进行互联。这种技术的出现使得构建大
数据挖掘是从海量数据中获取新颖的、潜在有用知识的过程,目前已经得到了广泛的应用。数据共享给用户带来好处的同时,也带来了泄密的风险。伴随着数据共享而来的隐私保护数据挖
分布式虚拟环境的研究需要解决可扩展性问题,主动兴趣管理技术将主动路由技术和基于内容的发布-订购模式相结合,使用双向共享组播树作为兴趣管理的通讯结构,在一定程度上提高了
伴随着计算机技术的高速发展,数字图像处理成为了一门新兴学科,并且在生活中的各个领域得以广泛应用。图像边缘检测技术则是数字图像处理和计算机视觉等领域最重要的技术之一
程序的不变性(Immumbility)是指类的实例对象的状态在其生命周期内不会发生改变。分析程序的不变性主要有两种技术:一种是采用静态分析技术分析程序的类、属性和方法等,获得不
为实现林业信息化、提高林业现代化,国家林业部提出建设“数字林业”的构想。即利用3S技术和相关计算机技术,将林业的各种特征用数字化的形式表现出真实的林业状况。其中,林分景
随着现代大规模软件版本不断更迭,测试集的规模也变得庞大,软件测试的成本也随之上升。测试集约简技术则被考虑用来解决此类问题,它可以找到原测试集中规模更小的一个子集,且能满
随着微型机电系统(Micro-Electro-Mechanical System,MEMS)、无线通信、数字电子学等技术不断地发展,基于无线传感器网络(Wireless Sensor Network,WSN)的定位技术孕育而生。正