论文部分内容阅读
在统计领域中,变点检测是一种很重要的研究方向,最早起源于质量控制场景中。近年来,在自然和社会科学,如经济学、环境学、金融学和生物医学等领域中都有应用,变点检测在统计学领域中得到广泛关注。本文主要关注在正态假设下独立观测时间序列均值多变点检测的方法研究。BS算法是时间序列多变点检测中最经典的算法之一,但是基于全局CUSUM统计量的识别过程会带来过多误判和较高的时间复杂度。一方面,BS算法是一种离线的序贯方法,因此没有充分利用数据的时序信息;另一方面,BS算法识别变点的原则是CUSUM统计量最大化,也没有考虑统计量构成序列的形态特性。鉴于此,本文提出了两个改进的BS算法:一个方法是基于指数衰减加权统计量,提出了Double-K BSW算法,该算法有较低的时间复杂度O(n/k log n/k);另一个方法通过充分挖掘局部检验统计量的曲线形态信息,基于局部形态识别统计量,提出了Shape-based BS算法。该算法不仅大大降低了计算复杂度,更降低了因变点间的互相干扰而带来的误判率,且加入单峰变点识别准则,提升了变点识别的稳健性。之后我们将两个算法分别应用在实际例子当中,验证了其有效性,最后,进一步地给出了相应的理论性质。另外,一般情况下变点相对于样本量来说都是稀疏的,故为了减少算法执行过程当中没必要的计算,可以首先对数据进行筛选,通过排除大部分无变点区域,将变点锁定在小的范围内,继而提出了基于切割的形态识别快速多变点检测算法。根据切割方式的不同,本文提出了两大类基于切割的快速算法:一类是基于横向分布投影切割的快速形态识别算法,包括SCC算法和SMSA方法;另一类是基于纵向切割的快速形态识别算法,包括FSSR算法。在第一类基于横向切割的方法中,采用局部CUSUM统计量、急降点和局部峰识别这三个关键工具对检验统计量的曲线形态特征进行了挖掘,该类方法主要有三个关键步骤:数据驱动阈值,自适应窗宽和单峰识别。根据切割阈值的不同,提出了SCC(Shape-based Cutting and Clustering)算法和SMSA(Shape-based Multiple Segmentation Algorithm)方法。SCC算法采用的切割阈值是最大急降点,最大程度上筛选掉非变点,极大地提高了检测速度,该方法对数据量的大小不敏感。但由于受到数据随机性影响,以最大急降点为界,可能会漏掉某些数据结构下的一些变点,故而SMSA算法选择了最右急降点作为筛选的界,保证了筛选后的数据包含所有的真实变点。同时加入多分割步骤,又一定程度上提升了检测速度,且数据量越大效果越好。本文进一步给出了SCC算法和SMSA方法的理论性质。在第二类基于纵向切割的算法中,以分组为基础,本文提出了FSSR(Fast Screen and Shape Recognition)算法。该算法的关键步骤主要包括分组锁定包含变点的子段,以及在准变点子段进行基于形态识别的变点验证。FSSR算法无论是在识别速度还是稳定性上都有明显的优势,并可将时间复杂度降为O((?))。特别是,变点分布越稀疏,FSSR算法的优势越明显。最后,本文将以上算法分别应用到实际例子中验证了其有效性。综上,本文提出了基于新检验统计量的BS改进算法和基于形态识别的快速多变点检测算法,并给出了相应的理论性质,仿真模拟显示了所提出算法的优越性,实例应用展示了所提出算法的有效性。