论文部分内容阅读
物联网与工业自动化系统的快速发展使得工业界积累的数据呈指数式增长,由于设备数据包含了工业过程中的重要信息,如何从海量的工业数据中挖掘出有价值的信息已经成为工业生产企业的需求。为了能够利用大量的工业数据来为企业创造经济价值,越来越多的研究人员与工程人员利用机器学习来对工业设备进行数据驱动建模。但是相比传统的商业大数据建模,工业大数据有着完全不同的特点:工业数据主要来自于传感器网络,其必须能够被及时且不间断地处理;工业大数据获取和使用有着严格的地点和范围的限定以遵循企业相关的数据安全规范;也特别的,在长生命周期的复杂工业过程中,工业的模型会随着设备的老化、工艺的更新不断演化。然而,工业大数据平台计算能力和技术支持相对有限,通常的设计是将模型更新独立于大数据平台以外,通过人工完成,这使得模型的更新周期长,成本高。工业大数据独特的需求使得工业大数据平台的实际化使用上面临众多困难。本文针对长生命周期的复杂工业过程中面临的机器学习和服务面临的模型更新困难,模型训练缺乏管理,资源缺乏有效的调度等问题,提出了一个基于Docker工业大数据持续服务平台,提供了持续化的机器学习建模和服务的关键技术支撑。具体的研究内容如下:(1)构建了一个基于容器的工业大数据的建模与服务平台,在现有的数据流,历史数据存储,实时数据管理,资源的弹性伸缩和服务的健康检查管理的基础上,加入了持续化的机器学习建模、管理和资源调度等支持,实现了全自动化的模型更新支持。(2)创新性的提出了一个基于模型适应性误差的模型更新调度算法。由于模型的更新通常是计算和资源密集型,如果不对模型的更新进行合理的调度会使得有限的工业计算平台资源耗尽。通过在线评估模型的适应性误差,根据评估结果和模型的更新开销综合考虑,决定模型更新调度优先级,提升了系统平台整体的模型服务质量。(3)系统地设计了机器学习模型管理服务,该服务提供了系统化的模型管理服务支持,除模型更新调度外,通过规范了模型的接口类型,允许一致化的模型调用;设计了模型的元数据描述,允许模型对自身的特性进行描述;构建了两种模型评估方法,支持在线和离线的模型评估;针对模型更新困难会导致模型服务停止的问题,提出了模型的平滑切换策略,保证了对在线模型服务的”零”影响,且不需要人工干预,极大地简化了模型更新流程。平台设计已经在Rancher上,基于Spark数据流引擎和TensorFlow机器学习系统上进行开发和实现。平台原型系统已经被部署在了某1000MW火电机组上,用于机组8个关键参数的建模和预测。系统部署的过程中经历了机组的大修等众多模型演化过程。场地测试以及长达10个月的持续化服务表明,该平台能够很好地适应工业场景下的模型演化,并且在系统发生变化的时候能将模型的服务质量维持在较高的水平,同时系统的开销很小,非常适合资源有限的工业大数据平台,特别是边缘计算网关的使用。