论文部分内容阅读
随着数字化、网络化和虚拟化技术的广泛应用,工业企业的信息化和智能化程度得到了显著提高,其产生的结构化、半结构和非结构化工业信息数据也呈指数式增长。企业在积累海量信息数据的同时,也产生了从这些海量数据中挖掘有价值信息的需求,尽管企业决策者已经意识到这些大数据中蕴含着巨大的经济价值,但仍然缺乏能够有效管理和分析这些大数据的先进技术和方法。因此,设计和实现一个工业大数据处理平台来统一存储、管理和分析企业生产及经营过程中的海量数据,并最大化挖掘这些数据潜在隐藏的价值,推动企业发展由业务驱动向数据驱动的智能制造模式转型,具有重大的现实意义。工业大数据以规模庞大、实时性高、数据类型多样、分散性强和价值密度低为主要特点,传统的数据管理分析平台已经无法很好地满足工业大数据的分析和应用需求。因此,必须研究新的有效的工业大数据处理平台。本文基于YARN设计和实现了一个能够对工业大数据进行存储、管理和分析的工业大数据处理平台,主要工作和研究成果如下:(1)研究当前主流的大数据存储与管理技术,应用分布式文件系统HDFS和NOSQL数据库技术解决工业大数据带来的数据规模问题。针对工业大数据的多源异构性,设计和实现一个多级存储系统,解决工业大数据中不同数据类型对存储模型的要求,再通过提供一个数据适配器让用户能够统一访问和管理工业大数据。(2)研究不同模型的大数据计算技术,采用MapReduce解决工业大数据离线批处理计算,采用Spark解决工业大数据快速迭代计算,采用Strom解决工业大数据流计算,再基于YARN集成这三种计算模型,以共享集群模式满足企业不同业务应用对数据处理的时效性要求,并采用优势份额分配算法解决平台中多计算模型之间的资源公平分配问题。(3)采用开源的Apache HUE技术,为用户提供一个交互性的可视化大数据分析界面,方便用户提交MapReduce应用程序、HiveSql命令、Spark应用程序以及交互查询和数据分析结果展示等功能,同时将R语言与本平台结合起来,为用户提供多语言的应用开发环境。再针对主从式架构中存在的单点故障问题,采用主节点热备份机制来实现本平台的高可用性。(4)为解决传统数据挖掘算法所面临的数据规模和效率问题,基于本平台完成多个数据挖掘算法的多模型并行化实现,为工业大数据的高效分析和处理提供一个数据挖掘算法库。