基于Hive数据仓库的中国空气质量统计分析系统的设计实现

来源 :安徽财经大学 | 被引量 : 0次 | 上传用户:jasn114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济和科技的不断发展,中国的大气污染监测网络和气象监测网络不断进步和完善,每个地区的空气和气象监测系统都已经积累了大量数据,对空气质量数据和气象数据构建科学、合理、及时、有效的数据分析系统,能够使空气质量监测数据得到充分利用,满足中国大气污染治理对信息的分析、决策要求。本文以2014-2019年中国所有空气质量和气象站点的监测数据作为模拟数据,以Hadoop分布式大数据框架、Hive数据仓库、Spark数据计算引擎、Pyecharts可视化工具作为技术框架,设计并实现了一个拥有数据收集、存储、分析、可视化功能的中国空气质量统计分析系统。在数据仓库的基础存储要求上,设计了具有分层存储、分区存储功能的中国空气质量数据仓库。分层存储是指根据不同的数据使用需求,将原始数据形成若干张数据表分层存储在数据仓库中,这种分层存储能够提高空气质量数据的使用效率。分区存储则是指根据数据的采集时间形成分区信息进行分区存储,经实际使用测试,分区存储策略可有效提高中国空气质量数据仓库中数据的检索效率。对于空气质量的统计分析主要分为空间分布分析、时间序列分析与预测,气象因素影响力分析,分别从年、季、月、日的时间尺度根据历史数据对比分析了中国各地区的空气质量的时空演化特征,对最新数据的空间分布情况进行展示,并对京津冀地区、长江三角洲、珠江三角洲这三大重点地区未来空气质量的水平进行预测。气象因素对空气质量的影响力趋势分析分为单项气象因素相关性趋势分析和多项气象因素整体影响力趋势分析,主要讨论了大气温度、地表温度、气压、降水、湿度、日照、风速这几项气象指标对空气质量的影响。通过使用数据仓库中存储的数据,中国空气质量统计分析的主要观察结果如下:1、中国空气质量年际分布显示,2014-2018年中国大部分地区的空气质量逐渐向好,年均空气质量属于污染水平的城市和站点逐年减少。2、时间序列趋势分析结果显示,在观测期内中国三大经济区中京津冀地区的空气污染最重,逐年改善幅度最大,长三角地区次之,珠三角地区则空气质量最优,改善幅度最小;以三大经济区作为预测对象进行空气质量未来预测,模型在测试集数据上的精度显示:SARIMA模型月度预测和RNN-LSTM模型日度预测的精度分别可以达到85.49%和99.6%,能够比较准确地预测出各地区未来的空气质量水平。3、气象因素影响力趋势分析显示,单个气象因素对空气质量的影响在不同地区存在明显差异,但每个地区气象因素整体对空气质量的影响力均呈现逐年增强的趋势。
其他文献
分析了合并院校图书馆书目数据库整合过程中存在的问题,结合本馆实践提出了书目数据库整合过程应采取的措施.
2009年11月28日至12月4日,由黄卫副市长带队的北京市政府代表团一行赴日本考察交通和环境保护工作。代表团专程访问了东京都政府环境局,进行了关于生活垃圾处理等相关问题的专题座谈,全面了解东京都23区生活垃圾收集、处理的基本情况和管理经验。  东京治理垃圾的经验有五方面:  将减量化作为垃圾治理的长期战略  垃圾分类是实现“减量化、资源化”的基础工程  制定并实施有效的经济政策,促进垃圾治理,保
咖啡来到中国,已经超过了100年。近年来,我国的咖啡业发展迅猛,竞争越来越激烈,慢慢的在国内市场就聚集了众多的国内外咖啡品牌。与此同时,在我国“大众创业、万众创新”的大背景下,在行业政策的鼓励下,投资创建一家独立的咖啡馆的想法渐渐在创业者们的脑海中生根发芽。吉林省壹加咖啡餐饮管理有限公司就是在这样的背景下建立起来的,公司成立于2015年,营业面积3000平方米,是一家具有新媒体特色的、半开放型的咖
法兰西第三共和国成立于普法战争重创的背景之下,共和制度也陷于重重危机之中。为了重拾民族自豪感和保卫议会制共和国,共和政府通过世俗化教育和共和主义传统进行共和爱国主
从简述民族地区的历史与现状出发,联系图书馆与民族地区经济发展的结合点,提出在民族经济发展的道路上,图书馆应通过收集民族地区文献资料,把文化优势转化为经济优势,并为经济发展