论文部分内容阅读
物联网技术的发展带来了物联网传感器的广泛应用,随之而来的便是海量物联数据的存储挑战。在计算机系统的实际应用中存在着数据访问局部性的现象,即在一段时间内特定数据会被集中访问,数据可以分为“热数据”和“冷数据”,热数据指的是在一段时间内访问频率较高的数据,而冷数据指的是在一段时间访问频率较低的数据。存储技术的进步为数据存储带来了不同选择,对于海量物联数据存储,根据数据热度特征,可以采用不同的存储介质存储不同热度特征的数据。“热数据”往往需要快速响应系统需求,对存储介质性能要求较高,因此可以采用固态硬盘等高性能存储介质存储,“冷数据”往往很少需要甚至完全不需要响应系统需求,对存储介质性能要求较低,因此可以采用机械硬盘等相对低性能存储介质存储。在实际应用中传统基于缓存替换算法的冷热数据划分策略并不能精准反映数据冷热情况,面对性能各异的存储介质,难以通过简单的冷热划分为后续的数据调度决策提供准确依据。为此本文主要进行了以下三点研究:(1)分析业务背景结合业务数据访问规律与数据自身价值,借助时间衰减模型设计数据热度量化方法,将数据冷热情况通过数字进行热度量化表示,提供更为精准可视的数据热度情况,为传感器所产生的物联数据构建时序热度数据记录。(2)分析时序热度数据特点和不同深度学习网络优势,基于CNN-GRU结合注意力机制构建面向多特征长时序数据的预测模型,通过实验测试对比得出结论,相较CNN-GRU等模型预测误差降低10.5%。(3)结合数据热度量化方法和热度数据预测结果,提出两阶段的数据调度策略,一阶段通过基于热度的数据替换算法提升数据访问命中率,二阶段通过遗传算法实现数据存储成本和数据传输成本的综合优化。此外,本文基于以上研究成果设计实现物联数据存储管理系统,详细介数据热度计算模块、数据热度预测模块和数据调度模块三个主要模块的设计与实现,并初步展示了该系统的运行效果。