时间序列异常子序列检测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:allyev
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活中,各个领域都包含大量的时间序列数据,例如心电数据、脑电数据、工厂传感器数据、网络流量数据以及金融数据等。这些数据中的重要信息往往体现在少数数据中,且这部分少数数据具有与其他大部分数据不一致的特征,在数据挖掘领域内把这些不一致的、少数的数据称为异常数据。而在时间序列数据中,异常数据又可分为异常点和异常子序列。在本课题中,主要研究异常子序列的检测,异常子序列即为与其他大部分非自身匹配子序列不同的子序列。目前,异常子序列检测算法可以直接针对原始时间序列,也可针对原始时间序列的其他表示方式,如符号聚集近似、分段聚合近似、分段聚合模式等。由于时间序列常为高维数据,在原数据上的异常子序列检测往往需要较大的时间开销;虽然在降维数据上的算法可以提升检测效率,但会在一定程度上丢失了时间序列的趋势信息,导致异常子序列检测准确度下降。本课题提出了两种异常子序列检测算法,在不损失时间序列趋势信息的前提下,可以提升算法的检测效率和检测效果。算法如下:1)通过分析相似子序列的特征:相似子序列必然有大部分的数据点是相似的,首先提出了基于时间点集合的时间序列表示方式;把时间序列的数值空间划分为若干等概率的数值区间,统计位于每个数值区间的数据点对应的时间点集合;然后采用区间表(Interval Table,ITable)的数据结构来表示计算出的时间点集合。相似子序列必然有相似的区间表,通过合并数据集中的每个子序列对应的区间表可以得到一个扩展区间表(Extended Interval Table,EITable);基于EITable可以计算子序列是否符合其他大多数非自身匹配子序列的分布,进而判断子序列的异常情况。2)通过分析动态时间弯曲(Dynamic Time Warping,DTW)算法计算时间序列相似性流程以及DTW算法处理时间偏移问题的思路,提出了基于动态局部密度估计的异常检测算法。首先把子序列随机划分为不相交的动态时间片段;然后采用多个随机哈希函数快速估计每个数据点在对应的动态时间片段具有相似关系的数据点,具有相似关系的数据点数量即为数据点的局部密度;通过数据点的局部密度以判断其异常情况,进而判断子序列在时间序列中的异常情况。本文选取一系列数据集来验证提出的算法是否可以准确检测出异常子序列。通过设计多组对比实验,验证了本课题提出方法的有效性。
其他文献
目的:了解住院精神病患者的梅毒感染状况。方法:应用描述性流行病学方法,从14872例精神科住院病例中筛查出114例梅毒患者,将相关资料进行统计分析。结果:住院精神病患者梅毒患病率
目的:探讨酚妥拉明联合硫酸镁在治疗子痫前期中的作用。方法:80例子痫前期的患者,随机分为研究组40例,对照组40例。研究组以5%葡萄糖液500 m l加酚妥拉明30 mg静脉滴注,根据血
在实际工业过程中,一些关键的过程变量和生产过程的安全保障乃至产品质量都有着密切的联系。因此,对于过程变量的准确预测对于过程控制、生产决策等应用有重要意义。一般来说
基于传统的状态估计算法,结合等式约束优化问题,提出了在计算速度、数值精度上显著提高的分布式并行算法,且以PVM为软件平台对验证系统进行了模拟计算.结果表明了该算法的有
宫内节育器(intrauterine device,IUD)避孕简单、方便,是我国育龄妇女最常见的避孕措施之一。绝经后取器是计划生育工作中难度较大的一项手术,我院对79例患者采用利维爱软化宫
在研究交流调速系统控制方法的基础上,针对交流电机这种复杂的被控对象,利用神经网络实现交流调速系统的模糊控制.仿真结果表明,该控制方法具有很强的自学习和抗干扰能力,当
讨论了影响磁性研磨加工效果的工艺参数。通过实验研究,分析了磁感应强度、工作间隙、工件表面与磁极工作表面间的相对运动速度,工件表面与磁极工作表面间相对振动的振幅和频率
目的:观察高血压合并良性前列腺增生症患者症状评分与血压节律之间的关系。方法:连续选择74例高血压合并良性前列腺增生症患者,入选者治疗前接受国际前列腺症状评分量表(IPSS)评
目前,随着护理学科的发展和医护模式的转变,越来越显示出和谐护理的重要性。从未来发展趋势看,护理服务更需拓展至个人、家庭和社会。履行“促进健康、预防疾病、减轻痛苦、协助