基于YARN的工业大数据处理平台研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:MANYE28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化、网络化和虚拟化技术的广泛应用,工业企业的信息化和智能化程度得到了显著提高,其产生的结构化、半结构和非结构化工业信息数据也呈指数式增长。企业在积累海量信息数据的同时,也产生了从这些海量数据中挖掘有价值信息的需求,尽管企业决策者已经意识到这些大数据中蕴含着巨大的经济价值,但仍然缺乏能够有效管理和分析这些大数据的先进技术和方法。因此,设计和实现一个工业大数据处理平台来统一存储、管理和分析企业生产及经营过程中的海量数据,并最大化挖掘这些数据潜在隐藏的价值,推动企业发展由业务驱动向数据驱动的智能制造模式转型,具有重大的现实意义。工业大数据以规模庞大、实时性高、数据类型多样、分散性强和价值密度低为主要特点,传统的数据管理分析平台已经无法很好地满足工业大数据的分析和应用需求。因此,必须研究新的有效的工业大数据处理平台。本文基于YARN设计和实现了一个能够对工业大数据进行存储、管理和分析的工业大数据处理平台,主要工作和研究成果如下:(1)研究当前主流的大数据存储与管理技术,应用分布式文件系统HDFS和NOSQL数据库技术解决工业大数据带来的数据规模问题。针对工业大数据的多源异构性,设计和实现一个多级存储系统,解决工业大数据中不同数据类型对存储模型的要求,再通过提供一个数据适配器让用户能够统一访问和管理工业大数据。(2)研究不同模型的大数据计算技术,采用MapReduce解决工业大数据离线批处理计算,采用Spark解决工业大数据快速迭代计算,采用Strom解决工业大数据流计算,再基于YARN集成这三种计算模型,以共享集群模式满足企业不同业务应用对数据处理的时效性要求,并采用优势份额分配算法解决平台中多计算模型之间的资源公平分配问题。(3)采用开源的Apache HUE技术,为用户提供一个交互性的可视化大数据分析界面,方便用户提交MapReduce应用程序、HiveSql命令、Spark应用程序以及交互查询和数据分析结果展示等功能,同时将R语言与本平台结合起来,为用户提供多语言的应用开发环境。再针对主从式架构中存在的单点故障问题,采用主节点热备份机制来实现本平台的高可用性。(4)为解决传统数据挖掘算法所面临的数据规模和效率问题,基于本平台完成多个数据挖掘算法的多模型并行化实现,为工业大数据的高效分析和处理提供一个数据挖掘算法库。
其他文献
科学技术是经济发展与社会进步的重要驱动力,并且越来越成为综合国力竞争的决定性因素,尤其是当前我国“经济新常态”与“供给侧结构性改革”概念的提出,使得科技创新成为实
摘要:课堂教学是教学活动的中心环节,提高学生的自主学习能力是近年来教学改革的重要目标之一。笔者在环境法课程教学过程中尝试组织学生分组开展自主学习,并拿出一定课时让学生主讲,组织大家进行讨论。通过对两届本科生的问卷调查,发现上述教学方式激发了学生学习的主动性,但是受总学时以及学生人数等因素限制,下一步还需要加强教学设计和组织。  关键词:课堂教学;问卷调查;自主学习;教学设计  中图分类号:G642
对公共场所行人数目的统计在经济决策、社会安保策略等方面已扮演愈加重要的角色。相比于其他方法,基于计算机视觉的计数方法具有获取场景直接、检测范围大、易于同监控系统
通过对比试验研究了不同水胶比、不同代砂率粒化高炉矿渣细骨料混凝土的抗氯离子渗透性能。试验结果表明:当水胶比较小时,粒化高炉矿渣混凝土的抗氯离子渗透性能优于同配合比
小微企业融资难是世界性难题。经过学术界、政府、实践者各方多少年的努力,一直没有得到最有效的解决方案。但是,小微企业的生命力相当强,发展速度非常快,成为促进经济增长和
老年代步车对安全性、舒适性、经济性、使用便利性有较高的要求。运用UG建模软件创建老年代步电动车整车模型,将老年代步电动车的整车模型导入ADAMS软件中,通过创建相应的约
目的 探讨感觉统合训练在高危早产儿早期干预中的应用价值,为临床早期干预提供一定依据。方法 选取2015年1月—2016年5月因脑损伤等高危因素在四川大学华西第二医院康复医学