论文部分内容阅读
摘 要: 松散回潮是烟草生产的关键环节,通过影响烟丝的含水率,进而决定烟丝的品质和口感。目前松散回潮的产品质量控制面临着工艺复杂、变量众多和产品要求高等多个挑战,需要用更精准的方法提升烟丝出料含水率的预测控制。本文介绍了一种基于梯度提升树方法的烟草回潮机出料含水率预测方法,可应用到回潮机的加水量和加湿量的控制中,能提高制丝阶段烟丝含水率的稳定性,从而提高烟丝的品质和口感。该模型以历史数据中的入口水分、热风温度、工艺流量、不同批次和牌号的产品信息为输入,综合考虑生产因素和环境因素的影响,实现了回潮机的出料含水率预测,满足了工艺生产要求。模型具有处理非线性问题的能力,提高了含水率的预测精度,满足了常用的统计学评估指标,并实现了自学习能力,可改善对烟丝含水率的控制并提升烟丝的品质。
关键词: 预测;回潮;出料含水率;梯度提升树
中图分类号: TP273 文献标识码: A DOI:10.3969/j.issn.1003-6970.2020.06.032
本文著录格式:何毅,李斌,普轶,等. 基于梯度提升树的烟草回潮机出料含水率预测[J]. 软件,2020,41(06):151157
【Abstract】: The loose moisture regain is a crucial process in tobacco production, which determines the moisture ratio of tobacco, with a great effect on the quality and savour of tobacco. At present, the product quality control of loose moisture regain faces many challenges, such as process complexity, a large number of variables and high product requirements. Therefore, it is necessary to increase the prediction accuracy of tobacco thread moisture ratio at machine outlet. This paper introduces a gradient boosting decision tree (GBDT) method to predict outlet moisture ratio of tobacco moisture regain machine, which can be applied to the control of outlet moisture and water flow rate. This method effectively improved the stability of moisture ratio of tobacco at the thread making stage, so as the quality and flavor of tobacco. This prediction took inputs from historical data, including inlet moisture, hot air temperature, craft flow, product information of different batches and brands, which integrated environmental and manufacturing effect. The craft requirements were used to evaluate prediction accuracy of outlet moisture ratio. The method can deal with nonlinear problems, and reach a high prediction accuracy. The method also satisfies statistical evaluation indexes and embodies self-learning capability, so the control of moisture ratio and quality of tobacco can be improved.
【Key words】: Prediction; Moisture regain; Outlet moisture ratio; Gradient boosting decision trees
0 引言
在烟草生产各环节中,制丝生产是对卷烟品质起决定作用的关键环节,其中烟丝回潮环节的水分控制,包括加水量和热风温度,直接对其后续的烘丝和制丝环节的品质控制起重要影响 [1]。作为关键制丝工艺,回潮过程直接影响了挥发性成分的释放量和致香成分的释放总量[2],对氯含量、糖碱比,钾氯比和氮碱比等均有较大的影响[3]。不同等级的烟叶,含水率和吸湿性能具有不同的特点,安徽中烟的陈春雷等通过对烟叶分组改进了加水策略,提高了烟叶的质量[4]。基于预测的控制改进可使用回归和神经网络等方法。在水分控制環节,福建中烟的常明彬等引入了环境的温湿度作为自变量,建立了多元回归模型预测出松散回潮加水量,并以此作为控制依据,可获得更佳的产品质量[5]。贵州中烟的陈启迪等利用Peleg[6]提出的二参数非指数经验回归模型方程,采用物料初始含水率和加水量预测回潮机出料含水率,优化了烟叶的出料含水率[7]。河南中烟的刘穗君等通过统计回归,建立了松散回潮出料含水率精准控制模型,提高了生产过程控制水平[8]。福建龙岩烟草工业有限责任公司的陈晓杜等则使用了Elman神经网络,利用其动力学特征和稳定性的优势,以松散回潮加水比例和环境温湿度为自变量,能预测出料含水率[9]。山东中烟的王龙柱等利用基于径向基函数的神经网络模型,向模型中输入制叶段实时数据松散回潮出料含水率、润叶加料出料含水率,预测烘丝机的叶丝生丝含水率值,为调整松散回潮提供了依据[10]。 以往研究中,未能同时考虑环境参数和生产工艺对出料含水率的共同影响;研发的预测模型则基于工艺组合改进或者线性回归等较为简单的方法,对系统复杂性的处理能力不足;同时计算得到的结果精度比较有限,缺乏与复杂系统的出料含水率预测控制相结合的能力。
为解决以上局限,本研究考虑了不同影响因子对出料含水率的影响,使用了包括温湿度在内的环境参数和工艺参数作为自变量,利用梯度提升树算法建立预测模型。经预测结果检验,梯度提升树模型能快速准确地预测回潮机出口的出料含水率,预测结果优于传统线性回归和神经网络方法,可在未来作为自动加水系统的决策依据。
1 研究背景
烟草回潮的出料含水率控制主要受环境因素和工艺参数的影响。研究表明,气候不仅是对烟叶原料生产影响最大的生态条件之一,同时还会影响到加工过程中的烟叶含水率等多个因素[11]。工艺参数则主要是生产工艺过程的物料流量和机器入口烟叶温度与含水率等,由烟叶自身所决定。
红河卷烟厂所在地区的气候特征为:(1)相对湿度大,平均湿度75%,日照较丰富,年日照时数2176.4小时。(2)日气温波动较大,温湿度条件对空调能耗影响较大。(3)气温和热量条件在世界主要烟区中较为优秀,光照和雨水分布与烟叶生长规律一致,有利于香气物质积累和高质量烟叶的生产[12]。
在工艺要求方面,烟草回潮的生产要求主要取决于产品的牌号和类型,生产过程有明确的排程安排,按排程决定回潮机的运转使用和生产量等的计划。出料含水率是整个过程最重要的工艺参数和控制目标。
在回潮机工艺指标的控制和预测过程中,预测出料含水率有重要意义:一方面预测结果可在回潮过程中为加水量提供决策依据,可以提高出料含水率控制水平,增强其控制的稳定性,使出料的温湿度更符合产品的设计参数。通过提高出料温湿度控制水平,还可提高产品品质特别是挥发性成分和致香成分的总释放量。另一方面,依托出料含水率的预测模型,可更精准的管理回潮机的运行和优化,从而实现回潮过程的精细化管理,增强精益生产制造能力。
2 研究方法
预测的目的是帮助松散回潮过程更好地控制烟叶含水率,从而为制丝工序提供符合要求的烟叶。烟叶经过真空回潮工序后,进入到松散回潮工序,然后进行松散、加温和加湿,通过控制该过程中的加水总量和热风温度,使出口的片烟达到工艺要求的温度和出料含水率,从而能拥有充足的致香成分并提高可挥发性成分的释放总量。松散回潮工序控制和预测的难点在于,一方面在生产过程中,相关的参数数量多,包括加水时间、热风温度、蒸汽压力等,且均存在一定波动;另一方面整个工序持续时间长,然而仅有入口处和出口处的物料含水率可被测量,而机器内部的物料含水率未知。为解决模型参数多、非线性强的特点,本研究采用了梯度提升树模型来应对非线性复杂问题,并同时使用了环境参数和工艺参数作为模型输入。
预测算法的工作流程如图1所示。首先,算法从MES系统(Manufacturing Execution System,制造企业生产过程执行管理系统)上获取回潮机的运行数据;其次,根据对生产过程的理解,从数据中提取关键参数,包括回潮机周边环境参数即温度和湿度,以及回潮机工艺参数包括热风温度、加水量、烟丝牌号、薄片流量、烟丝工艺流量和回潮机出口的出料含水率历史数据;之后对数据作清洗操作,剔除偏差超过合理范围的值;然后将数据拆分为训练集和测试集,用训练集训练出梯度提升树模型并验证其精度是否达到要求;测试集的环境和工艺参数作为该模型在测试阶段的输入,与系统采集的真实值对比。完成以上预测算法运算过程后,程序将输出模型和衡量预测结果的统计学指标。
2.1 参数选择和探索分析
根据对既往研究和工程项目的调研,环境温湿度、回潮机加水量和热风温度、牌号、烟丝和薄片的工艺流量是影响出料含水率的关键参数。为进一步提高模型的精度,本研究中使用了以上的所有参数作为输入变量。
获取了模型所需的参数的数据后,需要对数据进行预处理。首先,环境温湿度和工艺参数的数采时间间隔存在差异,环境温湿度数采的频率较低,需要对数据做时间点对齐处理。之后,需要补齐加密温湿度采集点的空缺时间点上的值,并对来自不同数据库的数据进行时间点排序。其次,还需要对数据中的异常值进行处理,即寻找到明显偏离了正常范围的数据点,并予以删除,从而避免由异常值导致的模型预测误差较大的情况。
数据的预处理还包括将字符型的牌号数据转化为数值型的数据。原始数据中的变量牌号记录了正在生产的产品牌号,以字符串的形式储存。为了满足训练预测算法的需求,需要将字符串转化为数值。该转化过程中使用了独热码编码的方式,也就是对于每一个牌号,新增一个变量,当生产的产品为该牌号时,则将该变量的值赋值为1,否则就赋值为0。
2.2 预测算法和自学习策略
梯度提升树算法(Gradient Boosting Decision Tree),简称为GBDT算法,是一種基于决策树的集成算法。GBDT可用于对离散值和连续值的预测,基本思想是加法模型和前向分布算法,然后以CART决策树作为基学习器。其中加法模型公式为:
为提高预测算法精度,更好地适应不断变化的工况和生产条件,模型建成后还嵌入了自学习策略。自学习策略是根据工艺要求,通过设定预测值和真实值之间的差异的允许阈值,当差值超过阈值之后,启动模型重训练,自动将新的工况和工艺纳入模型,达到自动学习新工况和工艺的目的。自学习策略可提高模型对新工况和烟草品种的预测精度,扩大模型的应用范围,增强模型应对不同工况和烟草品牌的泛化能力。
2.3 结果评估方法
本研究预测的是烟草回潮机的出料含水率,预测结果的评估主要有四种指标,分两类如下所述: 在结果评估中,将梯度提升树模型和其他的预测算法比如线性回归、支持向量机和神经网络等,进行预测精度的比较。然后利用测试集数据,获取输入参数导入到模型中,计算出输出参数,并进行预测偏差和统计量的分析,以验证预测模型在验证集上的效果。
3 应用效果
3.1 数据描述
松散回潮过程中涉及的参数可分为三类,包括环境参数,工艺参数和控制参数。其中环境参数和工艺参数共同决定了控制参数的值,回潮机通过改变控制参数来满足出料含水率的要求。这三类参数包含的物理量如下所述:
(1)环境参数,记录回潮机周边的温湿度,即其所处的厂房里的温度和湿度;
(2)工艺参数,包括物料在回潮机入口处的含水率,物料中烟丝和薄片的流量,烟丝的牌号等;
(3)控制参数,是回潮机需要控制的参数,用来改变物料的温湿度,控制参数包括热风温度和加水量。
表1中列出了所有自变量的名称、参数类型、处理方式和变量类型。对于所有变量,都需执行去除异常值的操作,以剔除严重偏移数据正常范围的异常值。对于环境温度和湿度,由于数据采集的时间间隔较大,还需将其时间点与工艺参数对齐,并在此过程补全空缺值。对于烟丝牌号,则使用独热码编码,将字符型的牌号数据转化为能被程序直接使用的数值。
3.2 数据探索性分析
根据既往的项目经验和文献综述,环境温度和湿度会对物料的含水率和温度产生一定影响[5]。图2中展示了环境温湿度的变化,由图中可以看出,红河总体比较温暖,夏季漫长,气温超过30度的天数较多,同时湿度较大,存在湿度超过90%的情况。
热风温度和加水量是回潮过程的控制变量,影响出料含水率和出料温度,是回潮过程中的控制参数。由图3可知,热风温度和加水流量并不是完全协调一致的在运作,热风温度出现较低温度的情况要少于加水流量出现较低值的情况。总体上,加水流量在300-500千克/小时之间,剔除极小值后,加水流量总体较为稳定,而热风温度则较为稳定,并会出现温度较高的情况。
图4是入口含水率、工艺流量和加水量、热风温度的直方图。从中可以看出,入口水分的数据分布比较均匀,大部分值聚集在平均数附近,而加水流量的数据存在向较大值倾斜的特点,出现较大的流量的情况要多于出现较小流量的情况,同时出现了少许加水流量值非常低的值。工艺流量整体上集中在三个数值区域内,其中出现频率最高的值接近8000,而热风温度则有两个数值较为集中分布的区域,分别是在58度和60.5度附近,其中58度附近的值的数量最多。
3.3 模型训练与验证
在模型的训练和验证的过程中,将数据分割为两个数据集:训练集和测试集,训练集用来训练模型,而测试集则用来验证模型的效果。在本次研究中,将经过处理的数据按7∶3的比例分割为训练集和测试集。同时考虑到生产工艺具有时间特性,即不同工艺数据的数据采集是按时间逐渐发生的,所以按照时间前后,将前70%的数据设定为训练集,将后30%的数据分割为测试集。
在训练集上对模型进行训練,经评估其精度满足要求后,可在测试集上进行模型的验证。预测值和真实值的对比如下,RMSE达到了0.54,而MAPE达到了3.16,较小的RMSE和MAPE体现了模型的精度较高,满足了对出料含水率进行精准预测的要求。用于模型训练和验证的计算过程仅耗时约1.29秒,满足了系统进行快速响应和控制的需求。图5中展示了模型的预测值和数采系统测得的真实值之间的对比,蓝色的线分割了训练集和测试集,蓝色线以左是训练集,以右是测试集。可见训练阶段与测试阶段预测值和真实值均较为接近,另可见数采系统采集的部分数据存在波动大的情况,需要在实际生产中尽量消除。
模型设定了自学习能力,当预测误差超过了根据工艺标准设置的阈值之后,启动模型的重新训练机制,将新的数据纳入到模型中,以增强模型对新的工况的预测能力。经过测试,模型可发现误差超过阈值的情况,并启动重训练从而达到应对新工况或者新烟草品种的能力。
3.4 预测对标分析
为验证梯度提升树模型的性能和效果,选取多个模型进行预测评估指标的对比,对比模型包括线性回归模型,支持向量机和神经网络等;线性回归采用了最小二乘法;支持向量机的参数设置为:核函数选用径向基函数核,惩罚因子为1000,松弛变量为算法自动计算选取;神经网络学习率为0.03,隐含层层数为100,激活函数使用ReLU函数,批大小等参数则由算法自主计算获得。
在模型效果的对比中,使用的评估指标为偏差率、RMSE、R-square、MAPE和计算耗时。这三个模型都是常见的预测方法[13-14],在多种场景中得到普遍的应用,其中回归模型和神经网络在烟草行业也有一定的应用。模型对比的结果如下表所示。
根据最终的预测指标比较知,和其他模型相比,在偏差率、RMSE、R-square、MAPE等指标上,梯度提升树模型均取得了最优的结果。而在计算速度上,回归模型耗时最少,取得了最优的计算速度,但是梯度提升树模型的计算速度依然超过了神经网络和支持向量机模型,并且能够满足3-5分钟完成一次预测的要求。同时,本研究使用了几个具有代表性的模型评估指标,可以应用于预测回潮出口状态的各种模型的评估和对比上。
针对出料含水率的预测,基于梯度提升树算法建立的预测模型取得了理想的效果,预测精度高,误差小,且计算速度快,可帮助运行人员控制加水量,作为加水过程的生产决策依据。
4 结论
在松散回潮过程的品控中,为保证出料含水率满足生产工艺和卷制要求,本文引入了机器学习方法中的梯度提升树生成预测模型,并引入了自学习机制实现模型迭代,从而实现了松散回潮过程的加水量的精准控制。通过采集关键工艺指标和气象数据,训练了一个基于入口含水率和物料流量的加水阀门控制模型,可利用预测调节阀门开度和加水量,并通过自学习方法实现模型的自主迭代和升级,预测结果在统计学和工艺指标上均满足了要求。选用红河卷烟厂的回潮数据,对模型的效果进行了验证,验证结果表明,模型预测的出料含水率数值和真实的数据之间误差小,计算速度快,满足了现场调试和未来嵌入到智能化控制系统的要求。 本文率先在烟草行业的业务中使用了梯度提升树模型,使用的模型具有精度高,计算速度快的优点,对复杂的生产工艺和机理的模拟效果较好,可部署在时效性比较强的系统上。在利用测试集进行检验后,发现模型在新的数据集上依然能发挥预期的效果。同时,梯度提升树也存在着模型较为复杂,理解困难不够直观,以及对数据中的极端偏差的处理能力较弱的缺点,需要在未来进一步的优化提高。
回潮机出料含水率的预测也对人的经验观察和控制逻辑的设计执行具有指导意义,可以用来指导回潮机的加水量,當前的模型未能整合过程能力指数Cpk和生产过程质量控制,可以在下一步的工作中予以实现。在本研究的基础上,后续可以增加各项经济指标的评估,实现模型的成本输入和收益输出等功能。并将预测方法和自动控制策略进一步的结合,实现生产过程的进一步优化和自动化提升,提高生产线自主诊断生产指标偏移的能力,并将预测控制方案拓展到热风温度控制和卷包制丝等其他的工序中。
参考文献
[1] 段荣华. 基于专家-模糊PID控制的松散回潮出口水分控制系统设计[J]. 计算机测量与控制, 2019, 27(1): 85-91.
[2] 张宏宇, 刘春波, 张涛, 等. 关键制丝工艺对烟气成分中挥发性成分的影响[J]. 化学研究与应用, 2015, 27(3): 274-79.
[3] 邵惠芳, 赵蓉蓉, 范磊, 等. 松散回潮回风温度对烟叶化学成分与中性致香物质的影响[J]. 中国农业科技导报, 2016, 18(6): 138-45
[4] 陈春雷, 陈杰. 不同等级烟叶吸湿性能的研究[J]. 检测与标准, 2018, 43(10): 44-46.
[5] 常明彬, 李晓. 基于环境温湿度条件的松散回潮加水量预测模型研究[J]. 海峡科学, 2016, (2): 17-20.
[6] Peleg, Micha. An Empirical Model for the Description of Moisture Sorption Curves[J]. Journal of Food Science, 1988, 53: 1216-1219.
[7] 卢先杰, 陈启迪, 马亚, 等. 基于Peleg方程的松散回潮不同等级叶组配方的吸水动力学分析[J]. 实验研究, 2016, 10(33): 17-18.
[8] 刘穗君, 王玉芳, 李超, 等. 基于统计回归分析的松散回潮出口含水率精准控制系统[J]. 烟草科技, 2017, 50(3): 88-93.
[9] 陈晓杜, 郭天文, 曹琦. 基于Elman神经网络的卷烟制丝松散回潮出口含水率控制方法[J]. 安徽农学通报, 2016, 22(08), 118-119.
[10] 王龙柱, 马洪晶, 孙钦兰, 等. 基于RBF神经网络的叶丝生丝含水率预测[J]. 自动化与信息工程, 2017, (2): 34-36
[11] 赵渐云. 弥勒烟区主要生态因子分析与相似类型烟叶替代研究[D]. 2014.
[12] 赵如文, 王惠, 杨韬, 等. 云南弥勒烟区气候条件分析[J]. 贵州气象, 2008, 32(6): 21-22.
[13] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition[M]. 2009
[14] 李航. 统计学习基础[M]. 2012.
关键词: 预测;回潮;出料含水率;梯度提升树
中图分类号: TP273 文献标识码: A DOI:10.3969/j.issn.1003-6970.2020.06.032
本文著录格式:何毅,李斌,普轶,等. 基于梯度提升树的烟草回潮机出料含水率预测[J]. 软件,2020,41(06):151157
【Abstract】: The loose moisture regain is a crucial process in tobacco production, which determines the moisture ratio of tobacco, with a great effect on the quality and savour of tobacco. At present, the product quality control of loose moisture regain faces many challenges, such as process complexity, a large number of variables and high product requirements. Therefore, it is necessary to increase the prediction accuracy of tobacco thread moisture ratio at machine outlet. This paper introduces a gradient boosting decision tree (GBDT) method to predict outlet moisture ratio of tobacco moisture regain machine, which can be applied to the control of outlet moisture and water flow rate. This method effectively improved the stability of moisture ratio of tobacco at the thread making stage, so as the quality and flavor of tobacco. This prediction took inputs from historical data, including inlet moisture, hot air temperature, craft flow, product information of different batches and brands, which integrated environmental and manufacturing effect. The craft requirements were used to evaluate prediction accuracy of outlet moisture ratio. The method can deal with nonlinear problems, and reach a high prediction accuracy. The method also satisfies statistical evaluation indexes and embodies self-learning capability, so the control of moisture ratio and quality of tobacco can be improved.
【Key words】: Prediction; Moisture regain; Outlet moisture ratio; Gradient boosting decision trees
0 引言
在烟草生产各环节中,制丝生产是对卷烟品质起决定作用的关键环节,其中烟丝回潮环节的水分控制,包括加水量和热风温度,直接对其后续的烘丝和制丝环节的品质控制起重要影响 [1]。作为关键制丝工艺,回潮过程直接影响了挥发性成分的释放量和致香成分的释放总量[2],对氯含量、糖碱比,钾氯比和氮碱比等均有较大的影响[3]。不同等级的烟叶,含水率和吸湿性能具有不同的特点,安徽中烟的陈春雷等通过对烟叶分组改进了加水策略,提高了烟叶的质量[4]。基于预测的控制改进可使用回归和神经网络等方法。在水分控制環节,福建中烟的常明彬等引入了环境的温湿度作为自变量,建立了多元回归模型预测出松散回潮加水量,并以此作为控制依据,可获得更佳的产品质量[5]。贵州中烟的陈启迪等利用Peleg[6]提出的二参数非指数经验回归模型方程,采用物料初始含水率和加水量预测回潮机出料含水率,优化了烟叶的出料含水率[7]。河南中烟的刘穗君等通过统计回归,建立了松散回潮出料含水率精准控制模型,提高了生产过程控制水平[8]。福建龙岩烟草工业有限责任公司的陈晓杜等则使用了Elman神经网络,利用其动力学特征和稳定性的优势,以松散回潮加水比例和环境温湿度为自变量,能预测出料含水率[9]。山东中烟的王龙柱等利用基于径向基函数的神经网络模型,向模型中输入制叶段实时数据松散回潮出料含水率、润叶加料出料含水率,预测烘丝机的叶丝生丝含水率值,为调整松散回潮提供了依据[10]。 以往研究中,未能同时考虑环境参数和生产工艺对出料含水率的共同影响;研发的预测模型则基于工艺组合改进或者线性回归等较为简单的方法,对系统复杂性的处理能力不足;同时计算得到的结果精度比较有限,缺乏与复杂系统的出料含水率预测控制相结合的能力。
为解决以上局限,本研究考虑了不同影响因子对出料含水率的影响,使用了包括温湿度在内的环境参数和工艺参数作为自变量,利用梯度提升树算法建立预测模型。经预测结果检验,梯度提升树模型能快速准确地预测回潮机出口的出料含水率,预测结果优于传统线性回归和神经网络方法,可在未来作为自动加水系统的决策依据。
1 研究背景
烟草回潮的出料含水率控制主要受环境因素和工艺参数的影响。研究表明,气候不仅是对烟叶原料生产影响最大的生态条件之一,同时还会影响到加工过程中的烟叶含水率等多个因素[11]。工艺参数则主要是生产工艺过程的物料流量和机器入口烟叶温度与含水率等,由烟叶自身所决定。
红河卷烟厂所在地区的气候特征为:(1)相对湿度大,平均湿度75%,日照较丰富,年日照时数2176.4小时。(2)日气温波动较大,温湿度条件对空调能耗影响较大。(3)气温和热量条件在世界主要烟区中较为优秀,光照和雨水分布与烟叶生长规律一致,有利于香气物质积累和高质量烟叶的生产[12]。
在工艺要求方面,烟草回潮的生产要求主要取决于产品的牌号和类型,生产过程有明确的排程安排,按排程决定回潮机的运转使用和生产量等的计划。出料含水率是整个过程最重要的工艺参数和控制目标。
在回潮机工艺指标的控制和预测过程中,预测出料含水率有重要意义:一方面预测结果可在回潮过程中为加水量提供决策依据,可以提高出料含水率控制水平,增强其控制的稳定性,使出料的温湿度更符合产品的设计参数。通过提高出料温湿度控制水平,还可提高产品品质特别是挥发性成分和致香成分的总释放量。另一方面,依托出料含水率的预测模型,可更精准的管理回潮机的运行和优化,从而实现回潮过程的精细化管理,增强精益生产制造能力。
2 研究方法
预测的目的是帮助松散回潮过程更好地控制烟叶含水率,从而为制丝工序提供符合要求的烟叶。烟叶经过真空回潮工序后,进入到松散回潮工序,然后进行松散、加温和加湿,通过控制该过程中的加水总量和热风温度,使出口的片烟达到工艺要求的温度和出料含水率,从而能拥有充足的致香成分并提高可挥发性成分的释放总量。松散回潮工序控制和预测的难点在于,一方面在生产过程中,相关的参数数量多,包括加水时间、热风温度、蒸汽压力等,且均存在一定波动;另一方面整个工序持续时间长,然而仅有入口处和出口处的物料含水率可被测量,而机器内部的物料含水率未知。为解决模型参数多、非线性强的特点,本研究采用了梯度提升树模型来应对非线性复杂问题,并同时使用了环境参数和工艺参数作为模型输入。
预测算法的工作流程如图1所示。首先,算法从MES系统(Manufacturing Execution System,制造企业生产过程执行管理系统)上获取回潮机的运行数据;其次,根据对生产过程的理解,从数据中提取关键参数,包括回潮机周边环境参数即温度和湿度,以及回潮机工艺参数包括热风温度、加水量、烟丝牌号、薄片流量、烟丝工艺流量和回潮机出口的出料含水率历史数据;之后对数据作清洗操作,剔除偏差超过合理范围的值;然后将数据拆分为训练集和测试集,用训练集训练出梯度提升树模型并验证其精度是否达到要求;测试集的环境和工艺参数作为该模型在测试阶段的输入,与系统采集的真实值对比。完成以上预测算法运算过程后,程序将输出模型和衡量预测结果的统计学指标。
2.1 参数选择和探索分析
根据对既往研究和工程项目的调研,环境温湿度、回潮机加水量和热风温度、牌号、烟丝和薄片的工艺流量是影响出料含水率的关键参数。为进一步提高模型的精度,本研究中使用了以上的所有参数作为输入变量。
获取了模型所需的参数的数据后,需要对数据进行预处理。首先,环境温湿度和工艺参数的数采时间间隔存在差异,环境温湿度数采的频率较低,需要对数据做时间点对齐处理。之后,需要补齐加密温湿度采集点的空缺时间点上的值,并对来自不同数据库的数据进行时间点排序。其次,还需要对数据中的异常值进行处理,即寻找到明显偏离了正常范围的数据点,并予以删除,从而避免由异常值导致的模型预测误差较大的情况。
数据的预处理还包括将字符型的牌号数据转化为数值型的数据。原始数据中的变量牌号记录了正在生产的产品牌号,以字符串的形式储存。为了满足训练预测算法的需求,需要将字符串转化为数值。该转化过程中使用了独热码编码的方式,也就是对于每一个牌号,新增一个变量,当生产的产品为该牌号时,则将该变量的值赋值为1,否则就赋值为0。
2.2 预测算法和自学习策略
梯度提升树算法(Gradient Boosting Decision Tree),简称为GBDT算法,是一種基于决策树的集成算法。GBDT可用于对离散值和连续值的预测,基本思想是加法模型和前向分布算法,然后以CART决策树作为基学习器。其中加法模型公式为:
为提高预测算法精度,更好地适应不断变化的工况和生产条件,模型建成后还嵌入了自学习策略。自学习策略是根据工艺要求,通过设定预测值和真实值之间的差异的允许阈值,当差值超过阈值之后,启动模型重训练,自动将新的工况和工艺纳入模型,达到自动学习新工况和工艺的目的。自学习策略可提高模型对新工况和烟草品种的预测精度,扩大模型的应用范围,增强模型应对不同工况和烟草品牌的泛化能力。
2.3 结果评估方法
本研究预测的是烟草回潮机的出料含水率,预测结果的评估主要有四种指标,分两类如下所述: 在结果评估中,将梯度提升树模型和其他的预测算法比如线性回归、支持向量机和神经网络等,进行预测精度的比较。然后利用测试集数据,获取输入参数导入到模型中,计算出输出参数,并进行预测偏差和统计量的分析,以验证预测模型在验证集上的效果。
3 应用效果
3.1 数据描述
松散回潮过程中涉及的参数可分为三类,包括环境参数,工艺参数和控制参数。其中环境参数和工艺参数共同决定了控制参数的值,回潮机通过改变控制参数来满足出料含水率的要求。这三类参数包含的物理量如下所述:
(1)环境参数,记录回潮机周边的温湿度,即其所处的厂房里的温度和湿度;
(2)工艺参数,包括物料在回潮机入口处的含水率,物料中烟丝和薄片的流量,烟丝的牌号等;
(3)控制参数,是回潮机需要控制的参数,用来改变物料的温湿度,控制参数包括热风温度和加水量。
表1中列出了所有自变量的名称、参数类型、处理方式和变量类型。对于所有变量,都需执行去除异常值的操作,以剔除严重偏移数据正常范围的异常值。对于环境温度和湿度,由于数据采集的时间间隔较大,还需将其时间点与工艺参数对齐,并在此过程补全空缺值。对于烟丝牌号,则使用独热码编码,将字符型的牌号数据转化为能被程序直接使用的数值。
3.2 数据探索性分析
根据既往的项目经验和文献综述,环境温度和湿度会对物料的含水率和温度产生一定影响[5]。图2中展示了环境温湿度的变化,由图中可以看出,红河总体比较温暖,夏季漫长,气温超过30度的天数较多,同时湿度较大,存在湿度超过90%的情况。
热风温度和加水量是回潮过程的控制变量,影响出料含水率和出料温度,是回潮过程中的控制参数。由图3可知,热风温度和加水流量并不是完全协调一致的在运作,热风温度出现较低温度的情况要少于加水流量出现较低值的情况。总体上,加水流量在300-500千克/小时之间,剔除极小值后,加水流量总体较为稳定,而热风温度则较为稳定,并会出现温度较高的情况。
图4是入口含水率、工艺流量和加水量、热风温度的直方图。从中可以看出,入口水分的数据分布比较均匀,大部分值聚集在平均数附近,而加水流量的数据存在向较大值倾斜的特点,出现较大的流量的情况要多于出现较小流量的情况,同时出现了少许加水流量值非常低的值。工艺流量整体上集中在三个数值区域内,其中出现频率最高的值接近8000,而热风温度则有两个数值较为集中分布的区域,分别是在58度和60.5度附近,其中58度附近的值的数量最多。
3.3 模型训练与验证
在模型的训练和验证的过程中,将数据分割为两个数据集:训练集和测试集,训练集用来训练模型,而测试集则用来验证模型的效果。在本次研究中,将经过处理的数据按7∶3的比例分割为训练集和测试集。同时考虑到生产工艺具有时间特性,即不同工艺数据的数据采集是按时间逐渐发生的,所以按照时间前后,将前70%的数据设定为训练集,将后30%的数据分割为测试集。
在训练集上对模型进行训練,经评估其精度满足要求后,可在测试集上进行模型的验证。预测值和真实值的对比如下,RMSE达到了0.54,而MAPE达到了3.16,较小的RMSE和MAPE体现了模型的精度较高,满足了对出料含水率进行精准预测的要求。用于模型训练和验证的计算过程仅耗时约1.29秒,满足了系统进行快速响应和控制的需求。图5中展示了模型的预测值和数采系统测得的真实值之间的对比,蓝色的线分割了训练集和测试集,蓝色线以左是训练集,以右是测试集。可见训练阶段与测试阶段预测值和真实值均较为接近,另可见数采系统采集的部分数据存在波动大的情况,需要在实际生产中尽量消除。
模型设定了自学习能力,当预测误差超过了根据工艺标准设置的阈值之后,启动模型的重新训练机制,将新的数据纳入到模型中,以增强模型对新的工况的预测能力。经过测试,模型可发现误差超过阈值的情况,并启动重训练从而达到应对新工况或者新烟草品种的能力。
3.4 预测对标分析
为验证梯度提升树模型的性能和效果,选取多个模型进行预测评估指标的对比,对比模型包括线性回归模型,支持向量机和神经网络等;线性回归采用了最小二乘法;支持向量机的参数设置为:核函数选用径向基函数核,惩罚因子为1000,松弛变量为算法自动计算选取;神经网络学习率为0.03,隐含层层数为100,激活函数使用ReLU函数,批大小等参数则由算法自主计算获得。
在模型效果的对比中,使用的评估指标为偏差率、RMSE、R-square、MAPE和计算耗时。这三个模型都是常见的预测方法[13-14],在多种场景中得到普遍的应用,其中回归模型和神经网络在烟草行业也有一定的应用。模型对比的结果如下表所示。
根据最终的预测指标比较知,和其他模型相比,在偏差率、RMSE、R-square、MAPE等指标上,梯度提升树模型均取得了最优的结果。而在计算速度上,回归模型耗时最少,取得了最优的计算速度,但是梯度提升树模型的计算速度依然超过了神经网络和支持向量机模型,并且能够满足3-5分钟完成一次预测的要求。同时,本研究使用了几个具有代表性的模型评估指标,可以应用于预测回潮出口状态的各种模型的评估和对比上。
针对出料含水率的预测,基于梯度提升树算法建立的预测模型取得了理想的效果,预测精度高,误差小,且计算速度快,可帮助运行人员控制加水量,作为加水过程的生产决策依据。
4 结论
在松散回潮过程的品控中,为保证出料含水率满足生产工艺和卷制要求,本文引入了机器学习方法中的梯度提升树生成预测模型,并引入了自学习机制实现模型迭代,从而实现了松散回潮过程的加水量的精准控制。通过采集关键工艺指标和气象数据,训练了一个基于入口含水率和物料流量的加水阀门控制模型,可利用预测调节阀门开度和加水量,并通过自学习方法实现模型的自主迭代和升级,预测结果在统计学和工艺指标上均满足了要求。选用红河卷烟厂的回潮数据,对模型的效果进行了验证,验证结果表明,模型预测的出料含水率数值和真实的数据之间误差小,计算速度快,满足了现场调试和未来嵌入到智能化控制系统的要求。 本文率先在烟草行业的业务中使用了梯度提升树模型,使用的模型具有精度高,计算速度快的优点,对复杂的生产工艺和机理的模拟效果较好,可部署在时效性比较强的系统上。在利用测试集进行检验后,发现模型在新的数据集上依然能发挥预期的效果。同时,梯度提升树也存在着模型较为复杂,理解困难不够直观,以及对数据中的极端偏差的处理能力较弱的缺点,需要在未来进一步的优化提高。
回潮机出料含水率的预测也对人的经验观察和控制逻辑的设计执行具有指导意义,可以用来指导回潮机的加水量,當前的模型未能整合过程能力指数Cpk和生产过程质量控制,可以在下一步的工作中予以实现。在本研究的基础上,后续可以增加各项经济指标的评估,实现模型的成本输入和收益输出等功能。并将预测方法和自动控制策略进一步的结合,实现生产过程的进一步优化和自动化提升,提高生产线自主诊断生产指标偏移的能力,并将预测控制方案拓展到热风温度控制和卷包制丝等其他的工序中。
参考文献
[1] 段荣华. 基于专家-模糊PID控制的松散回潮出口水分控制系统设计[J]. 计算机测量与控制, 2019, 27(1): 85-91.
[2] 张宏宇, 刘春波, 张涛, 等. 关键制丝工艺对烟气成分中挥发性成分的影响[J]. 化学研究与应用, 2015, 27(3): 274-79.
[3] 邵惠芳, 赵蓉蓉, 范磊, 等. 松散回潮回风温度对烟叶化学成分与中性致香物质的影响[J]. 中国农业科技导报, 2016, 18(6): 138-45
[4] 陈春雷, 陈杰. 不同等级烟叶吸湿性能的研究[J]. 检测与标准, 2018, 43(10): 44-46.
[5] 常明彬, 李晓. 基于环境温湿度条件的松散回潮加水量预测模型研究[J]. 海峡科学, 2016, (2): 17-20.
[6] Peleg, Micha. An Empirical Model for the Description of Moisture Sorption Curves[J]. Journal of Food Science, 1988, 53: 1216-1219.
[7] 卢先杰, 陈启迪, 马亚, 等. 基于Peleg方程的松散回潮不同等级叶组配方的吸水动力学分析[J]. 实验研究, 2016, 10(33): 17-18.
[8] 刘穗君, 王玉芳, 李超, 等. 基于统计回归分析的松散回潮出口含水率精准控制系统[J]. 烟草科技, 2017, 50(3): 88-93.
[9] 陈晓杜, 郭天文, 曹琦. 基于Elman神经网络的卷烟制丝松散回潮出口含水率控制方法[J]. 安徽农学通报, 2016, 22(08), 118-119.
[10] 王龙柱, 马洪晶, 孙钦兰, 等. 基于RBF神经网络的叶丝生丝含水率预测[J]. 自动化与信息工程, 2017, (2): 34-36
[11] 赵渐云. 弥勒烟区主要生态因子分析与相似类型烟叶替代研究[D]. 2014.
[12] 赵如文, 王惠, 杨韬, 等. 云南弥勒烟区气候条件分析[J]. 贵州气象, 2008, 32(6): 21-22.
[13] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition[M]. 2009
[14] 李航. 统计学习基础[M]. 2012.