论文部分内容阅读
大数据处理技术是当代信息技术领域的重要发展方向之一,随着大数据相关技术的不断发展与应用,实时计算领域越来越被关注。以Hadoop为代表的基于MapReduce计算框架的大数据处理技术往往是通过批处理方式对历史数据进行分析,而实时计算领域则强调的是对瞬时数据进行在线处理。另一方面,传统工业企业产品在生产过程中,无时无刻不在产生着海量的数据,典型的如工业设备传感器数据等。这些数据的特征是连续、无限增长、无序,并且需要实时响应,被称为流式数据。工业企业在面对这些海量的流式数据时,主要有以下三点问题:1)无法解决海量流式数据的大规模存储问题;2)像对待普通数据一样处理流式数据,无法发挥流式数据实时性的特点;3)传统的技术架构无法对流式数据进行更高维度的分析,不能应用机器学习模型等新兴技术手段去分析处理。显然,以传统的数据分析处理方法并不能对流式数据进行有效的分析及存储。如何去挖掘工业质量流式数据更深层次的价值,对这些质量数据进行各个维度的分析,并且以可视化的形式动态展现给普通用户,是本文研究的主要目的。基于本课题(面向工业企业的质量大数据分析云服务平台)的实际研究背景与需求,本文从一个相对通用的、高可用的实时流式数据处理框架的设计出发,将整个质量数据分析平台细分为以下四个关键模块:1)数据采集模块;2)流式数据实时处理模块;3)数据存储模块;4)大数据可视化模块。总体来说,本文的主要研究贡献有如下三点:1)针对工业质量流式数据的产生场景及特点,以Apache Flume为基础,完成对工业质量数据的实时采集的设计及实现。2)在Spark集群的基础上设计并且实现了一套相对通用的、高可用的实时流式数据处理框架,并且能够在该框架的基础上应用Spark Sql与Spark mlib完成对流式数据的结构化查询以及机器学习模型的应用,使框架具有良好的可扩展性。3)将前后端分离架构应用于大数据可视化模块,使前端项目可以专注于流式数据的响应式展现,达到实时流式数据处理的可视化需求。后端项目可以在基于RESTFUL风格的基础上实现微服务化架构,实现高可用、高并发、低耦合的数据可视化模块。本文从质量数据分析平台的总体设计出发,在各个模块的具体设计与实现上给出了相应的介绍。在某钢厂1580热轧生产线设备产生的真实数据的基础上,完成整个实时流式数据处理流程的构建。