论文部分内容阅读
近20年来,数据在各行各业受到越来越多的关注,生产、交易、医疗等领域的数据被大量收集,用于企业产品升级或服务转型方面的研究。社会各界对数据的重视加速了数据分析技术的发展,也对现有的数据分析方法提出了更高的要求。由于数据流具有即时性高、流速大的特点,传统的离线数据分析方法已经不能满足数据流分析的实时性要求。因此,数据流的在线分析方法应运而生,并逐渐得到学术界和工业界的青睐,成为数据流研究的重要方向。目前,滑动窗口模型是数据流突变点在线检测的关键技术之一。运用滑动窗口技术对到达的数据流切段,将数据流划分到若干个窗口中并加以分析,明显提高了突变点检测的速度,满足了在线检测的实时性要求。但在滑动窗口模型中,窗口大小选取不当会造成突变点检测精度下降的问题。窗口过大,窗口内数据波动被掩盖,会导致突变点检测精度降低;窗口过小,数据量少、携带信息少,也会导致突变点检测精度降低。所以,滑动窗口模型中窗口大小的选取,是影响数据流突变点检测精度的重要因素。本文以滑动窗口模型中窗口大小与突变点检测精度的关系为研究对象,提出了一种窗口大小可以根据检测过程进行动态调整的自适应窗口模型,并将该模型用于模拟数据和真实脑电波数据的突变点检测,均取得了显著的效果。首先,本文引入了一种速度较快的TSTKS突变点检测算法,结合滑动窗口理论,构建了一个数据流突变点在线检测模型。TSTKS算法是由HWKS算法改进而来,通过在二叉树的基础上增加中间分支,解决了HWKS算法对于出现在中间部分的突变点不敏感的问题。实验结果表明,相比于其他算法,引入TSTKS算法的滑动窗口突变点检测模型表现更优异。其次,根据数据流突变点检测过程中得到的局部信息,提出了3种自适应窗口调整策略。策略1基于检测过程中各个窗口突变点的检测结果制定,适用于轻微震荡的数据流;策略2基于检测过程中各个突变点间隔大小的变化而制定,适用于分布剧烈震荡的数据流;策略3基于检测过程中相邻窗口内数据分布的差异大小而制定,适用于分布平缓的数据流。分别将3种自适应窗口策略引入滑动窗口模型进行仿真,并与固定窗口模型进行比较。实验结果表明,3种自适应策略均可在一定幅度内优化滑动窗口模型的突变点检测性能。再者,根据3种自适应窗口策略各自的性能表现特点,提出了一种自动窗口策略选择方法。该方法结合了三种自适应窗口策略的优势,根据局部数据的分布情况灵活地选取相应的自适应窗口策略。实验结果表明,引入该自动窗口策略选择方法的模型的性能优于任意单一的自适应策略模型。最后,结合3种自适应窗口策略与智能策略选择方法,构建了一个自适应窗口突变点在线检测模型,并对真实的癫痫脑电数据进行突变点检测。实验结果表明,本文提出的自适应窗口模型与传统的固定窗口模型相比,性能表现得到明显的提升。