面向复杂批次过程的强化学习控制方案

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ali99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续过程以及间歇过程是化工生产过程中的两种基本生产形式,其中连续过程适用于制造大批量低精度需求的化工产品,例如石油化工过程。而间歇过程生产的产品多是搞附加值产品,生产批量较小,因此又被称为批次过程,相较于连续过程而言,批次过程将生产划分为多个阶段,对每个阶段进行不同操作以达到不同的加工目的。其适用于制药工程、塑料成型、半导体制造、精细化工等高精度的生产过程。批次过程是一种多阶段生产过程,系统动态特性复杂、操作变量繁多、过程重复运行皆是批次过程的特性,针对这些特性就要求批次过程的控制器具有快速响应、鲁棒性好、控制精度高、稳定性好等特性。针对批次过程的控制任务,迭代学习控制算法和强化学习算法是两种最具潜力满足其控制要求的算法。迭代学习控制是根据批次过程的重复特性所设计出来的一种学习控制算法由于是学习控制算法,迭代学习控制在不需要知道过程动态信息的情况下就能够将控制性能收敛至稳定,因此在批次过程的控制任务中迭代学习控制起到了至关重要的作用。然而迭代学习控制适用的过程仅限于完全重复的批次过程,即过程必须保证初始状态一致、过程动态一致、过程目标一致。在实际生产环境中,批次过程无法保证以上三个一致,这就导致迭代学习的鲁棒性较差。因此为了进一步推动迭代学习控制算法的应用落地,有必要提高其鲁棒性。强化学习也是一类基于学习思想的控制算法,由于结合了神经网络,强化学习具有出色的鲁棒性和泛化能力。强化学习通常被应用于游戏AI及广告推荐的决策任务中,其应用场景皆是动态特性复杂、多任务的过程,而这些特性也是批次过程所具有的,因此将强化学习应用于批次过程也是很自然的想法。然而强化学习存在数据利用效率低下,训练周期漫长,真实的批次生产环境无法为其提供理想的训练环境。除此之外,强化学习基于试错学习,其探索行为可能形成破坏性的控制策略,将强化学习算法直接应用于真实生产过程,会带来不可避免的安全问题。因为以上原因,如何提高强化学习的数据利用率以及保证其探索空间的安全性是推动强化学习应用落地必须解决的关键问题。针对迭代学习在非完全重复批次过程中鲁棒性差以及强化学习学习效率低下的问题,本文率先提出了一种基于迭代学习控制引导的强化学习控制方案(Iterative Learning Control Guided Reinforcement Learning Control,IL-RLC)。该方案并行运行两类控制算法,通过迭代学习控制利用前一批次的控制信息计算当前周期的前馈控制信号,利用该前馈控制信号对当前周期强化学习的控制信号进行引导。这样做的好处在于:一方面通过迭代学习引导强化学习在合理区间对策略进行探索优化,避免安全隐患;另一方面通过强化学习提高控制器的鲁棒性能。针对IL-RLC无法完全利用ILC所提供的引导信息的问题,本论文进一步提出了基于迭代学习控制专家数据引导的强化学习控制方案(Learning from ILC Demonstration,ILC-LFD)。该方案利用迭代学习控制提供的控制序列对强化学习的策略网络和价值网络参数的优化方向进行引导,使得强化学习的策略网络和价值网络能够较快收敛至稳定的控制策略。在ILC-LFD算法中,由于强化学习前期交互数据较少,其策略网络和价值网络主要依据ILC提供的数据进行更新,因此能够在训练前期就能够得到一定的控制效果,从而提高学习效率。随着强化学习交互数据的增多,网络所依赖的数据逐渐迁移到探索所得到的交互数据,因此在训练后期控制器的鲁棒性又能够得到提高。在本文中,我们首先通过线性系统的仿真实验证明两种算法的有效性,再通过非线性批次反应釜的仿真系统证明了两种算法对于化工生产的有效控制能力。
其他文献
公共物品筹资是福利经济学领域内一个经久不衰的热点问题。由于由政府主导的公共物品的中心化供给存在着种种原因,其在供给效率和灵活性上存在一定的缺陷;因此,更加灵活高效,简单易行的公共物品筹资机制始终是经济学家们关注的焦点。本文的研究对象是在考虑个体风险厌恶情况下可以用于公共物品筹资的“彩票”机制;本文通过构建理论模型研究了不同的奖金设计对“彩票”机制筹资能力的影响,并依据模型设计了一系列实验以展现不同
学位
氢能源作为一种清洁高效能源被认为是传统化石能源的理想替代品。甲酸是一种无毒、安全、方便、可再生的氢气储存介质,已成为化学储氢材料的热点研究对象。在甲酸催化脱氢体系中,均相催化剂难以回收,而贵金属多相催化剂价格高昂,限制了其在工业生产中的应用。因此,设计和构建高性能低成本的催化剂受到越来越多的关注。本文以高导电性二维材料碳化钛(Ti3C2)和石墨烯(GO)作为载体,过渡金属镍作为活性组分,合成了负载
学位
本研究聚焦于品牌社会角色定位的初期阶段,探讨在品牌角色拟人的营销过程中,面对“领导者”、“仆人”两种不同的品牌角色类型,营销人员应当如何在平面广告中进行空间布局以及背景设计,才能有效提升消费者对品牌的评价。因此,本研究设计了两项实验:实验一主要考察品牌角色(领导者vs.仆人)与垂直空间位置(上方vs.下方)之间的空间匹配对品牌评价的影响,并检验信息加工流畅性在其中发挥的中介作用;实验二主要考察广告
学位
生物3D打印是一种利用活细胞、生物分子和生物材料打印生物医学结构的增材制造方法.光固化生物3D打印利用光对生物墨水进行时空控制实现3D结构的精确构筑,具有高效、副产物少的特点,被广泛用于组织工程和再生医学领域.本文对光固化反应的化学原理、常用于光固化生物3D打印的天然、合成生物材料和光固化生物3D打印的工艺、前沿方法进行了总结,并介绍了各工艺在生物医药领域的相关应用,最后展望了光固化生物3D打印面
期刊
随着人们生活质量的提升,国民追求更高品质生活的愿望日益迫切。旅游也就成为人们追求高品质生活的一种重要途径。在强大市场需求的带动下,旅游业迅猛发展,正成为有较大活力的产业。而作为旅游产业的龙头,景区类上市公司的发展至关重要,因此通过剖析其财务绩效的优劣能够反映我国旅游业当前的整体盈利水平和发展潜力。特别是,2020年突发的新冠肺炎疫情带来巨大的冲击,如何面对疫情的挑战,如何在危机中寻求生存与发展,是
学位
麦类茎秆作物在成熟时期受风载雨载影响极易发生倒伏,造成作物减产。麦类作物的优种选育、抗倒伏能力的评价以及相关机械收获装备的研发均与茎秆力学特性有关。本文针对小麦和燕麦的茎秆力学特性,以小麦长4738、长6878、晋太182以及燕麦晋燕18四个品种为试验对象,对不同品种、不同节间的小麦和燕麦茎秆及单纤维的生物力学特性进行测试,研究各品种茎秆及其单纤维力学特性沿节间的变化规律。论文主要研究内容及结论如
学位
原子纳米团簇是原子精确的,由于其具有独特的光学、电子、介电、磁性和化学性质,受到人们的广泛关注[1,2]。通过调整纳米团簇(NCs)中两种或多种金属的组合可以改变其某些性能,通常会导致所需性能的增强,例如发光性能、催化性能等。近年来越来越多的科研人员对金属纳米团簇的合金化开展深入研究。对于币金属而言,Au与Ag的合金化研究较为深入,Au与Cu次之,但Ag与Cu的合金化研究甚少。本论文中,我们采用一
学位
基于区块链的新一代智能合约系统具有更高的执行效率和可信性,在各行业显现出巨大的应用价值和潜力。区块链预言机(Oracle)是链上智能合约与链外数据的接口,可以为智能合约的执行条件判断提供关键的链外数据。现有的区块链预言机系统只适用于读取简单的结构化数据,难以通过去中心化的方式利用AI(Artificial Intelligence,人工智能)技术实现对海量数据的处理并针对处理结果达成共识。这极大限
学位
从栽培季节、原料选择、配方配制、拌料、装袋、接种、发菌期管理、出菇期管理及转潮期管理,介绍平菇生料栽培关键技术。
期刊
21世纪以来,微电子领域的发展日新月异,摩尔定律表明大约每18个月集成电路上可容纳的晶体管数目便会增加一倍。由于晶体管数目的不断增加而产生的大量热量往往造成电子器件因高温而失效。因此开发出更高效的热管理材料对于微电子领域的发展至关重要。本文主要着眼于高分子基热界面材料的研究,将石墨烯添加到聚偏氟乙烯(PVDF)基体中,制备出一种具有更高导热系数的聚合物纳米复合材料。通过改善石墨烯的分散性、与聚合物
学位