面向能源大数据的分布式存储关键技术研究

来源 :许玲玲 | 被引量 : 0次 | 上传用户:jialulu0119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工业4.0和工业物联网技术正在许多领域迅速推动数据数字化,能源领域就是之一。能源数据来源多元化,比如电能、风能、太阳能等等可再生能源,这些数据不仅类型多样性,结构复杂,而且数据量一直在快速的增加。海量数据数字化的过程中,出现了No SQL数据库。No SQL数据库具有弱结构化存储,易扩展,可伸缩,高并发的特点,适合用于海量能源数据的存储。但是能源数据不合理的存储方式会导致数据冗余、存储空间浪费、数据难利用等问题。在此背景下,本文针对能源大数据的类型采用不同的框架,并针对负载均衡,缓存策略、数据一致性等分布式存储技术进行了深入的研究。本文的主要工作如下:(1)针对HBase负载不均衡的问题,提出一种基于Region和Region Server的全局性负载均衡算法。通过对Region进行预分区和执行带虚拟节点一致性哈希算法来生成Rowkey,对Region Server采用贪心算法进行定期负载均衡的方式,以提高HBase的读写性能。实验表明,相对于HBase内嵌的负载均衡算法,新的算法的能够明显提升HBase的数据写入性能,并使集群负载更均衡。(2)针对HBase自身没有针对查询频率的缓存算法的不足,设计采用Redis作为数据缓存层,协处理器保证数据写入一致性的策略,并提出一种基于时间平滑法的更新频率和查询频率的缓存替换算法,通过衡量历史数据对当前数据的影响,可以有效提高缓存的命中率,并提高数据查询的性能。实验表明,相对于原有的缓存算法,缓存命中率和查询效率均得到了有效的提升。(3)针对Fast DFS缺乏缓存设计的问题,设计基于Redis的压缩缓存策略。由于Redis的存储格式是以字符串的形式存储的,无法直接存储文件,采用Base64和Gzip对缓存在Redis中的文件进行压缩,提高Redis的空间利用率。根据能源文件以上传和查询居多的特点,提出一种基于时间平滑法的查询频率热度值缓存替换算法,以提高文件查询的效率和缓存命中率。实验表明,相较于Fast DFS的原生实现,应用新的策略和算法后,文件的查询速度、缓存命中率、空间利用率均得到了显著提高。(4)综合前述工作,设计了一个面向能源大数据的分布式存储中间件,采用HBase和Redis存储结构化数据,采用Fast DFS和Redis存储文件数据,并且对外提供统一的查询接口。
其他文献
学位
报纸
学位
学位
学位
针对台风期间电离层异常探测中传统方法所存在参考背景值精度低,且容易受到多种外界环境因素干扰的问题,该文提出了一种基于标准时频变换理论的电离层异常探测方法。电离层总电子含量(TEC)变化在其标准时频谱中可以自动显示,运用标准时频变换理论具有的无为方法可以将变化的主成分直接提取,得到高精度的参考背景值。使用该方法对2016年第14号台风“莫兰蒂”和台风轨迹下落站点的电离层TEC变化进行异常探测。结果显
期刊
学位
学位
在《区域全面经济伙伴关系协定》的背景下,实现制造业高质量发展机遇与挑战并存。本文以成都市制造业为例,对实施《区域全面经济伙伴关系协定》背景下成都市制造业产业专业化发展的现实基础进行梳理,研究了实施《区域全面经济伙伴关系协定》对成都市产业的影响路径,并采取区位熵这一指标对成都市制造业专业化程度进行分析。研究结果表明,《区域全面经济伙伴关系协定》的签订为成都市产业高质量发展带来新机遇,包括政策利好、国
期刊
随着通信、传感器技术的发展,无线传感器网络已经逐渐成为业界关注的焦点,应用领域也越来越广泛。通过无线传感器网络获取完整且精确的感知数据是数据分析以及应用决策的基本前提,由于无线传感器网络的固有特性可能导致数据丢失,比如传感器节点故障、节点能量、通信能力和计算能力有限以及数据冗余。现有针对感知数据恢复的问题大多是基于传统机器学习或是仅基于单一数据属性,难以突破瓶颈。针对上述问题,本文从以下两个方面探
学位