论文部分内容阅读
近年来,高采样率时间序列数据在实时或高性能计算场景中的数据量呈现爆炸式增长,而且需要持久化存储以免数据丢失引起错误的分析结果。新型非易失性存储器(Non-Volatile Memory,NVM)可以提供持久化的时间序列数据存储。然而,频繁地向NVM写入高采样率时间序列数据会急速加快NVM的寿命损耗。同时,动态时间扭曲(Dynamic Time Warping,DTW)算法作为常用时间序列数据分析算法,由于其具有弹性匹配等优点,在时间序列数据爆炸式增长的背景下也显得越来越重要。但是,高采样率时间序列数据会严重影响DTW算法的效率并减慢其分析过程,这使得时间序列数据的分析存储过程更具挑战性。因此,设计一个针对高采样率时间序列数据、以NVM为存储介质的存储优化技术具有重要意义。为了实现高效持久化的时间序列数据存储与分析,本文采用可字节寻址的NVM作为主存,针对时间序列数据的特性和DTW算法的不足,提出了近似动态时间扭曲(Approximating Dynamic Time Warping,ADTW)框架下的时间序列数据存储优化技术:动态下采样(dynamic downsampling)策略。主要贡献如下:第一,针对高采样率时间序列数据的存储与分析问题,本文提出了动态下采样策略,通过利用平滑策略消除噪声、特征点提取策略降低采样率以及线性插值策略保证完整性,使得在不严重影响DTW算法精度的情况下,显著减少高采样率时间序列数据的存储开销。第二,为了增强动态下采样策略的性能,本文提出利用相对变化以及相邻数据点之间的斜率变化移除非重要数据点,从而提高动态下采样策略的精度;通过使用更高阶的内插函数,提高重构精度。第三,针对时间序列数据在NVM上的存储,本文提出基于可字节寻址的NVM的内存存储方案:采用诸如相变存储器等NVM作为本地DTW算法分析的主存以及持久性存储器。在该存储方案的基础上,本文还提出了相应的时间序列数据存储技术。最后,本文利用公开可用的时间序列数据集(如心电图数据ECG、气温数据Air temperature以及音频数据等)进行了一系列模拟仿真实验,验证了本文提出策略的有效性。实验结果表明,动态下采样策略可以在大多数数据集上达到90%以上的压缩率;而在最坏情况下,压缩率也可以达到80%以上。此外,动态下采样策略比现有研究中提出的策略更加精确且具有更小的CPU运行开销。