基于分布式计算的时间序列异常检测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jingkaiqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测是数据挖掘领域的传统研究热点,跟相似性检索相反,异常检测是为了找出数据集中跟其他元素最不相似的那些元素;而时间序列又是现实世界中最为常见的数据种类之一,所有随着时间推移而产生的数据都属于时间序列范畴。因此针对时间序列的异常检测一直备受数据挖掘领域的专家学者们关注,而且在现实中也有诸多应用。传统的时间序列异常检测算法的时间复杂度与序列的长度成平方关系,是一种O(N~2)的算法。研究人员提出了很多针对该算法的加速方法以应对不断增长的数据规模。但是这些加速方法都局限在单机实现上,在面对千万级别规模的时间序列时,这些算法基本都会失效,不仅仅是因为顺序处理速度慢,更为重要的原因是内存中根本装不下这么多数据。本文正是针对这个局限性,提出了基于分布式计算的时间序列异常检测算法。我们的分布式算法解决了传统检测算法中子问题的解不能被归并的问题,从而可以使原问题通过分治策略解决,这样带来的直接好处就是数据的分块处理,消除了内存瓶颈。我们基于分布式计算框架Spark和分布式存储框架HDFS实现了分布式时间序列异常检测算法。经过实验验证,在超过百万级别的数据规模下,大部分传统的时间序列异常检测算法已经无法胜任,而其他一些采用磁盘扫描逐个读取数据记录的算法在计算效率上远远落后于我们的分布式算法,我们使用4个Spark节点,达到了5倍以上的加速。我们这个可扩展的分布式算法保证了大规模数据下时间序列异常检测的可行性。
其他文献
在意大利开展无产阶级革命运动中,葛兰西对西欧资本主义国家的社会现状进行了观察研究,通过吸收马克思的无产阶级革命理论和反思俄国的革命道路,逐步形成了文化领导权理论。
目的:本论文选用课题组前期筛选出的人口腔上皮癌KB细胞及耐药株KB/ADM,采用斑马鱼异位移植瘤模型,研究氯化两面针碱(NC)对KB/ADM细胞的耐药逆转作用及NC对Topo m RNA和蛋白
本文的研究内容是二维配送时间下机器调度问题。新一代信息技术广泛应用带来的异址制造资源共享和交通运输业空前发展带来的交通运输方式的变革,给现代制造业生产运作管理带来了新的管理问题。传统调度问题中,一般假定每个作业的直接配送时间具有唯一值,而在现实的制造企业中,考虑到制造资源共享或配送方式选择等因素,作业的直接配送时间往往依赖于机器的地理位置或选择的配送方式。因此,在生产调度过程中需要考虑机器地理位置
负泊松比结构在拉伸变形过程中会呈现拉伸拉胀状态,目前被广泛应用于航天航空、化学材料、机翼变形等各个领域。随着科学技术的发展和工程需要,对负泊松比的研究越来越受到重视,而将具有负泊松比特性的结构应用于多体系统动力学领域的研究相对来说还比较少。因此,多体系统动力学中负泊松比结构的研究具有重要意义。本文主要研究了内凹蜂窝型负泊松比结构。基于内凹蜂窝芯结构,结合多体系统动力学拉格朗日方程,分析并建立了内凹
目的:基于数据挖掘研究《普济方》中治疗噎膈所有方剂的证治用药特点及规律。方法:从湖南电子影像出版社出版的《中华医典》(第五版)中所收录的《普济方》中收集治疗噎膈的所
目的:制备一种复方丹参膜剂,提取丹参,三七的主要有效成分,辅以冰片为组方,配以可食用高分子材料为膜剂基质,制备一种具有能够在口腔溶解,吸收的膜剂。筛选最优膜剂制备工艺;
背景:肝细胞癌是最常见的肝脏恶性肿瘤,肝部分切除仍然是早期肝细胞癌最常用的根治方法。然而肝切除术中大量出血常难以控制,术中大量失血和输血是肝切除术后不良预后的重要
目的:观察眼针疗法与体针疗法对无先兆偏头痛的临床疗效及两者之间的疗效差异,为治疗无先兆偏头痛提供更好治疗方法。材料与方法:选取在辽宁中医药大学附属医院门诊患者60例,
信息化时代的电子元器件逐渐向着薄膜化和集成化的方向发展。微波软磁薄膜能有效减小滤波器、薄膜电感器、天线等电磁元器件的尺寸,因此在微型化或集成电路器件中得到了广泛的应用。实际使用的软磁薄膜要求在自偏置(无外加磁场)条件下具有高磁导率、高铁磁共振频率以及与集成电路兼容的制造工艺。因为电磁设备的工作频段受磁性材料的铁磁共振频率的限制,所以想要提高电磁设备工作频率,探究如何提高微波软磁薄膜的铁磁共振频率成
金融业,在我国经济发展的方方面面,均发挥着举足轻重的作用。而银行业,以其信用中介、配置优化资源、促投资保发展等职能,是金融业当仁不让的核心。2008年,金融风暴席卷全球