基于Spark的智慧城市能耗数据分析的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:luoxueyan191
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智慧城市理念核心思想就是利用计算机技术提高城市竞争力,随着互联网技术的迅速发展,尤其是近年来移动互联网技术的发展,为建设智慧城市提供了数据支撑。用电数据采集系统是采用智能电表对居民用电信息的采集系统,其采集的数据每天可达20GB,使用传统的关系型数据库对这些用电信息存储出现瓶颈,研究一个支持大规模用电数据存储系统是本文的基本需求。电厂发电能量是没办法存储的,电厂只能通过历史数据预测将来的电力使用来发同等的电量,因此需要根据用电历史数据准确的预测用户用电量,为电厂发电量提供准确的指导,同时提供数据统计查询功能,为建设节能减排智慧城市提供数据支撑。为了实现上述提出的需求,本文首先对系统需求做详细分析,将系统需求分解为用电数据采集与存储需求和用电数据分析需求,用电数据分析包括对用电数据进行SQL统计查询分析和用电预测。用电存储系统采用Hadoop分布式文件系统HDFS来作为系统的存储方案,并基于Zookeeper方案提供HDFS高可用性,使系统具备高可靠性、高容错性等特性。用电存储系统数据采集使用开源工具Sqoop来实现将原始关系型数据库中的数据导入到Hadoop分布式文件系统中。用电分析系统分为用电数据统计分析和用电预测两个部分,用电数据统计分析是根据前端页面输入的SQL语句为系统对用电数据提供SQL查询功能,使用SparkSQL作为用电数据统计查询分析方案。用电预测是使用用户历史用电数据,预测用户一天的用电量,本文采用决策树回归模型对用电数据建立用电预测模型,通过皮尔逊系数理论,对用户用电量的因素做相关性分析,将影响因子较大的因素作为决策树回归模型的特征向量,然后使用Spark求解决策树回归模型。使用10-折交叉验证的方法对结果进行误差分析,不断调整决策树回归模型的参数,在模型平均绝对误差和模型求解时间上作出平衡选择,选择在平均绝对误差和求解时间上最平衡的决策树回归模型的参数作为预测决策树的参数。最后在测试环境中对系统的功能和非功能需求进行测试,验证了系统能够满足系统的功能和非功能需求。其中用电预测在选择好决策树的参数后,用电预测值和用电真实值的平均绝对误差能够达到5%以下,模型的求解时间也在可接受到范围内,表明用电预测模型具备可行性。在测试部分还给出使用SparkSQL、Hive分别来做SQL查询的性能比较,结果表明SparkSQL在速度上优于Hive,同时给出了SparkSQL执行SQL查询与直接在数据库中做SQL查询的性能比较,结果表明SparkSQL速度优于数据库。各种测试结果表明,本文在设计上是合理的。
其他文献
刑事技术与刑事侦查的关系是相互包容和密不可分的。侦技协作的基本内容包括人的结合、知识的结合和手段的配合。目前分局侦技协作的主要不足表现在:缺少协作意识;缺少现场意
高校宣传思想工作是宣传贯彻党的教育方针政策,促进学校改革与发展,增强师生员工的凝聚力,塑造学校良好社会形象的重要舆论阵地,在传播先进思想文化方面发挥着无可替代的作用
从1601年第一架钢琴传入中国,距今已有了四百多年历史,但是钢琴音乐文化在中国真正发展,是在二十世纪初。通过这一时期作曲家的钢琴作品创作中的音乐结构、语言特点,来阐述这
为了提高低温冷冻灾害的防御能力,为政府部门制定防灾减灾规划提供科学依据。本研究基于自然灾害形成机理及风险评估原理,以济南市长清区为例,利用气候资料、历史灾情数据、
在现有的工业设计教育体系下展开CDIO工程教育模式,从而使工业设计专业训练与社会对设计师的能力需求相匹配,培养具有技术与艺术交叉背景的人才.在设计专业综合型课程中开展
综述了我国 SF6开关设备的发展概况,电力系统应用 SF6开关设备的情况以及国产 SF6设备与进口设备的应用前景。
目的 探讨食管癌术后的非细菌性腹泻病人应用食醋的临床效果。方法 对106例食管癌术后非细菌性腹泻的病人给予食用食醋,同时做好病人的饮食指导及相应的护理措施。结果 对106
为实现快速、平稳的加样臂位置控制,将模糊控制与传统PID控制相结合,设计出基于模糊自适应PID的位置控制器.通过模糊控制在线调整位置环PID控制器的3个参数,使控制器具有较强