基于Hadoop的建筑能耗大数据存储分析平台的设计

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:dashunyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着城市化进程的加快,建筑能耗呈急剧上升的趋势,建筑节能研究已成为我国节能减排工作的重点。近年来大数据相关技术和物联网技术的发展,为建筑节能提供了数据支撑。利用这些技术进行采集、存储、分析建筑能耗数据,可反映建筑运行状况,发现建筑用能规律,从而实现建筑能源的高效使用。智能电表的普及和用能信息采集系统的发展,建筑能耗信息数据量越来越大,使得传统的关系型数据库对建筑能耗数据进行存储、查询和处理已出现性能上的瓶颈,同时也难以满足大数据时代各种各样的新需求。本文的研究围绕基于Hadoop的建筑能耗大数据存储分析平台展开,主要工作内容如下:(1)设计了一种针对建筑能耗大数据存储分析平台的三层架构。研究了如今主流大数据平台架构,依据Lambda架构对平台进行设计。在批处理层中,HDFS提供底层数据存储服务,MapReduce与Spark提供离线计算服务。将Spark的运行模式配置为Spark on YARN模式,使用YARN对集群计算服务进行统一调度与计算资源管理,解决了 Spark Standalone模式下只支持简单且固定的资源分配策略问题。在实时处理层中,将Spark Streaming与Kafka进行了整合,可用于能耗预测、能耗报警等流式应用。在服务层中,HBase与Hive提供数据查询分析服务,并将Hive配置为支持Hive on MR与Hive on Spark的双计算引擎模式,供用户根据计算需求进行切换。(2)设计了一种基于YARN资源调度器的作业数调节方法。该方法可在集群运行状态下动态地对MR作业数进行调节,省去人工调整参数的过程。测试结果表明,在YARN分别配置为容量调度器和公平调度器的情况下使用该方法,相比默认配置,MR作业完成时间分别减少53%和14%左右。(3)提出了一种通用的RDD权重计算模型,表示对应的RDD执行检查点操作的重要程度。并设计了一种Spark自动化检查点设置方法,省去了开发人员依赖经验选择检查点时机和检查点数据的过程。测试结果表明,Spark自动化检查点设置方法能够提升Spark应用程序的恢复效率。
其他文献
图像分类是计算机视觉领域最基础的研究任务之一。近年来,随着人们日常生活场景需求的变更以及市场化因素,研究者们从对猫、狗、花、鸟等大尺度粗粒度图像分类任务的研究关注
作为柔性电子封装技术的关键技术之一,柔性基板技术因其具有耐用、柔性、轻质等优点,有着广阔的发展前景。随着集成电路技术的发展,对柔性基板技术也提出了更高的要求。现有
学位
有序回归问题是机器学习中一类重要的问题,它的目标是预测离散的有序类别,这导致它区别于多分类和回归问题。有序回归方法成功应用在很多现实场景中,包括年龄预测、信用评估
随着工业化、信息化的不断深入发展,以及人口老龄化造成的劳动力成本持续上涨,提高工业生产的信息化与智能化水平显得尤为重要。基于推动企业升级换代与促进社会生产力发展的考虑,本文针对积木机器人生产线上无序摆放、相互堆叠的小型零部件的分拣问题,设计了一种基于计算机视觉的可自主抓取的、扩展性强的小型零部件抓取系统,主要的研究内容和成果如下:1.结合零部件的实际特点,采用特征组合的方式来对颜色直方图特征和SI
近年来,一些政府单位办事程序繁冗复杂,引发办事群众的不满与诟病,凸显了地方政府政务服务乱像。本届中央政府通过大规模调整和下放行政审批事项,深入推进行政审批改革,各地
冠状动脉分割在血管解剖结构分析、冠脉疾病临床诊断(例如冠脉狭窄、冠脉钙化等)、冠脉外科手术方案制定以及血流情况建模等研究中至关重要。目前冠状动脉分割方法主要包括主
随着互联网时代下网络信息的爆炸式增长,多标签文本分类已经成为处理文本信息数据的一种有效手段。信息数据可以通过多标签文本分类快速准确地定位到所属类别,多标签文本分类
目的:KLHL22分子对膀胱癌的生长、迁移及侵袭的研究。方法:通过阅读文献了解KLHL22分子在人多个疾病的发病机制中所起的作用。综合生物信息数据库查找KLHL22在膀胱癌及正常膀胱组织中的m RNA表达量差异,再通过实时定量PCR和Western blot等实验手段验证其在膀胱癌细胞系与正常尿路粘膜上皮以及临床膀胱癌组织和相应的癌旁组织中m RNA和蛋白质的表达量的差异性。最后检测KLHL22分
精密球铰链具有三个方向的回转自由度,转动灵活、结构简单,是具备大承载能力的低副运动机构,广泛应用于机器人、并联机构、医疗器械等工业领域。为了提升装备运动精度,解决球