基于动态下采样策略的时间序列数据存储优化技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:sunapplesun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高采样率时间序列数据在实时或高性能计算场景中的数据量呈现爆炸式增长,而且需要持久化存储以免数据丢失引起错误的分析结果。新型非易失性存储器(Non-Volatile Memory,NVM)可以提供持久化的时间序列数据存储。然而,频繁地向NVM写入高采样率时间序列数据会急速加快NVM的寿命损耗。同时,动态时间扭曲(Dynamic Time Warping,DTW)算法作为常用时间序列数据分析算法,由于其具有弹性匹配等优点,在时间序列数据爆炸式增长的背景下也显得越来越重要。但是,高采样率时间序列数据会严重影响DTW算法的效率并减慢其分析过程,这使得时间序列数据的分析存储过程更具挑战性。因此,设计一个针对高采样率时间序列数据、以NVM为存储介质的存储优化技术具有重要意义。为了实现高效持久化的时间序列数据存储与分析,本文采用可字节寻址的NVM作为主存,针对时间序列数据的特性和DTW算法的不足,提出了近似动态时间扭曲(Approximating Dynamic Time Warping,ADTW)框架下的时间序列数据存储优化技术:动态下采样(dynamic downsampling)策略。主要贡献如下:第一,针对高采样率时间序列数据的存储与分析问题,本文提出了动态下采样策略,通过利用平滑策略消除噪声、特征点提取策略降低采样率以及线性插值策略保证完整性,使得在不严重影响DTW算法精度的情况下,显著减少高采样率时间序列数据的存储开销。第二,为了增强动态下采样策略的性能,本文提出利用相对变化以及相邻数据点之间的斜率变化移除非重要数据点,从而提高动态下采样策略的精度;通过使用更高阶的内插函数,提高重构精度。第三,针对时间序列数据在NVM上的存储,本文提出基于可字节寻址的NVM的内存存储方案:采用诸如相变存储器等NVM作为本地DTW算法分析的主存以及持久性存储器。在该存储方案的基础上,本文还提出了相应的时间序列数据存储技术。最后,本文利用公开可用的时间序列数据集(如心电图数据ECG、气温数据Air temperature以及音频数据等)进行了一系列模拟仿真实验,验证了本文提出策略的有效性。实验结果表明,动态下采样策略可以在大多数数据集上达到90%以上的压缩率;而在最坏情况下,压缩率也可以达到80%以上。此外,动态下采样策略比现有研究中提出的策略更加精确且具有更小的CPU运行开销。
其他文献
知识经济时代,创新已经成为企业生存发展和获取持续竞争优势的基础与主要动力来源,在企业市场竞争和国家经济发展中的地位变得越来越重要。当前科学技术迅猛发展以及产品生命
织物平整度等级是评级织物外观性能及其内在抗皱性能的重要指标,对生产过程中的质量控制以及交易过程中消费者的选择具有重要导向作用,因此需要正确评价织物平整度等级。目前
多不饱和脂肪酸和类胡萝卜素因其在食品和医药领域的广泛作用而得到人们极大的关注,当前利用微生物发酵生产多不饱和脂肪酸和类胡萝卜素具有诸多优点,由于酵母生产迅速且生物
超连续谱光源的宽光谱、高亮度以及良好的空间相干性使得它在光谱学、光纤通信、计量学以及生物医学成像等领域有着重要的应用价值。光纤放大器中输出超连续谱是目前获得高功
自准晶被首次揭示以来,准晶材料的物理性能以及缺陷(裂纹、孔洞、夹杂)问题一直是物理、力学以及数学工作者们关注的热点问题。准晶材料的应用常常与其稳定性有关,而导致准晶
混沌信号由确定性系统产生,具有较复杂的运动形态。鉴于混沌运动的复杂性,传统观念认为混沌不存在解析解。然而,一些学者通过大量的理论推导,发现了一类存在解析解的混沌系统
本文研究了一株从玛咖根际土壤中分离筛选出产抑菌多糖的野生菌,根据其菌落与孢子形态特征和28S rDNA鉴定确定该菌为尖孢镰刀菌(Fusarium oxysporum),并对该菌株产抑菌多糖能力
随着信息产业的迅猛发展和互联网技术的不断普及和深入,我们正逐渐步入大数据时代,这将加剧对计算能力的依赖。在此大背景下,量子计算作为一种具有巨大运算潜力的新型计算模
近年来,新兴的非易失性存储器(Non-Volatile Memory,简称NVM)具有可按字节寻址、掉电数据不丢失、读写性能接近DRAM等特点。NVM存储器的一个重要应用领域是搭建高效的分布式
目的:探讨16周HIIT对衰老骨骼肌蛋白合成和蛋白分解的变化,为早期预防骨骼肌质量下降提供运动干预新策略,并为HIIT在健身方面的应用提供理论参考。方法:10只SAMR1小鼠与20只S