基于行为克隆的逆强化学习算法及其故障诊断应用研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:suxiaohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
被誉为人工智能领域“明珠”的强化学习在机器人控制、自动驾驶、资源调度等领域蓬勃发展,取得了巨大的成功,这得益于设计符合目标的奖励函数。在实践中,手动设计奖励函数不仅耗费大量的人力物力,而且具有主观性。逆强化学习能够自动构造奖励函数,避免了人为主观偏差,解决了强化学习的瓶颈问题。行为克隆直接从专家示例监督学习获取策略,而逆强化学习先求奖励函数再强化学习获取策略,虽然获取的策略更好,但计算量也大大增加。本文研究了基于行为克隆的逆强化学习算法,以使算法兼具二者的优点。首先,本文研究了加入正则化惩罚的逆强化学习算法,希望加入正则化惩罚来优化奖励函数的参数求解。在网格世界的实验结果表明,加入正则化惩罚能够获得更精确的奖励函数和更优的策略。尤其是同时加入L1正则化惩罚和L2正则化惩罚的逆强化学习算法,得到的奖励函数几乎与真实奖励函数一致,策略也与最优策略十分接近。然后,针对专家示例非最优会导致逆强化学习算法恢复的奖励函数偏差较大这个问题,本文提出了基于行为克隆的逆强化学习算法,用行为克隆重新生成专家示例,然后在新生成的专家示例下恢复奖励函数。实验结果表明,基于行为克隆的逆强化学习算法在专家示例非最优时相比传统逆强化学习算法能获得更精确的奖励函数,专家示例越差,效果越明显。最后,本文还将逆强化学习应用到了故障诊断中。以往大多通过监督学习实现故障诊断,这可以看作是一种行为克隆,逆强化学习求解的奖励函数可视为系统的内在信息。本文将逆强化学习和行为克隆结合提出了一个基于行为克隆的深度逆强化学习智能故障诊断网络,本文选择了比较经典的TE化工过程作为实验对象,实验结果表明,本文提出的基于行为克隆的深度逆强化学习智能故障诊断网络能够很好地检测出各种故障,特别是在一些微小故障的诊断方面明显优于其他算法。
其他文献
间歇过程是化工生产、生物制药等行业的主要生产方式,具有多模态、非线性、多变量等特点。受传感器技术的制约,间歇过程中存在底物浓度、产物浓度等难以直接测量的过程变量,直接影响间歇过程的在线监测和优化控制,导致生产效率降低并且难以保证间歇过程的安全运行。软测量技术通过建立容易测量的辅助变量和难以直接测量的主导变量之间的数学模型,实现对主导变量的在线估计。现有的间歇过程软测量混合建模方法没有考虑模型参数数
学位
随着时代的发展与技术的进步,人们对于过程的安全性以及产品的质量需求逐渐增强,基于数据的状态监测受到更多的学者关注与研究,其中拥有诸多优点的多变量统计分析算法备受青睐。本文主要基于统计方法中典型相关分析算法做出一些改进工作,典型相关分析的优化目标为寻求一对转换向量使得过程变量的线性组合与关键性能指标的线性组合之间的相关性最大。然而典型相关分析只考虑变量与投影向量间的线性关系,且在应用于状态监测时也无
学位
研究高效、准确、快速的基于数据驱动的旋转机械故障诊断方法具有重要意义。深度学习(DL)是数据驱动方法的一个重要分支,在故障诊断方法中得到了越来越多的关注。虽然DL方法在旋转机械故障诊断中取得了很好的效果,但大多数方法的性能会随着工作条件的变化而急剧下降。为了解决这个问题,我们设计了一个迁移学习框架,用于更快、更准确的旋转机械故障诊断。为了提高模型训练和诊断速度并减少模型的参数量。首先,我们设计了一
学位
冶金起重机是在恶劣环境下工作且任务极其繁重的一类起重机,其长时间重复、间歇性吊运、频繁起动制动的载荷吊运过程不断地冲击冶金起重机设备与钢结构,容易造成设备故障与钢结构的疲劳失效,具有极大的危险性。工业健康监测系统能够实时监测设备健康状况,减小工业设备故障或疲劳失效带来的危险性。冶金起重机应用工业健康监测系统时由于数据维度高、数据量大,不易采集和处理表征冶金起重机健康状态的多维数据,此外由于缺乏有效
学位
隔离壁反应蒸馏塔(R-DWDC)作为反应蒸馏(RDC)和隔离壁技术过程强化与集成的产物,在资源节约和能源消耗方面具有巨大的潜在优势,但迄今为止很少有针对过程综合与设计的研究。尤其单隔离壁反应蒸馏塔(R-SDWDC)是现有研究中占绝对优势的过程结构,虽然它能很好的协调反应操作与分离操作之间的物质和能量耦合,但是分离与分离操作之间的物质和能量耦合却被完全忽略,因此R-SDWDC并不是过程强化的最优结构
学位
<正> 南京附近吕家山至红山近东西向展布的沉积岩系,1935年朱森、李毓尧等定有一套古生代志留纪、泥盆纪及石炭—二叠纪地层。1964年沈修志等改划为中生代三叠系青龙群、黄马青组及侏罗系象山群地层,并在青龙群与黄马青组之间划了一条规模较大的逆断层。1976年提交的1:20万南京幅区测报告,基本上与沈氐意见相似,所不同的是把沈氐
期刊
数据实时监控是工业生产过程安全经济运行的重要手段,但在数据采集中存在采样不平衡、同时系统中存在非线性耦合关系以及受到非高斯干扰等监控难题。生成式对抗网络(Generative Adversarial Networks,GAN)及其拓展方法对抗自编码器(Adversarial Autoencoders,AAE)等从分布函数等角度给出了以上监控难题部分解决方法。然而复杂的工业过程监控中,通常几个难题伴
学位
<正> 江苏及安徽南部的下石炭统发育较好,化石丰富,为我国研究早石炭世地层主要地区之一。近年来,我们在该区系统地观察了一些剖面,并参照安徽省、江苏省区测队的有关资料,作了进一步的整理和分析。根据地层层序、岩石性质和生物群特征,对下石炭统的划分提出初步意见。
期刊
虽然隔离壁蒸馏塔(Dividing Wall Column:DWC)能够在一个操作单元内实现三元混合物的分离,且具有较高的热力学效率,但是分离过程仍然具有很强的不可逆性,仍有进一步强化的潜力。为了解决此问题,本文将内部热耦合技术(Internally Heat Integrated Technology)应用于DWC,即将隔板中置的DWC分为两部分(高压段与低压段),通过高压段向低压段传送热量,降
学位
微小故障对系统影响不明显,难以及时检测,容易演化为影响工业生产的重大故障,对其快速、准确地诊断具有非常重要的研究价值。微小故障多隐藏在正常操作范围内,传统的被动故障诊断方法仅利用系统输入输出数据,难以实现有效、及时地检测。主动故障诊断设计最优辅助信号并注入系统达到增强故障特征目的,从而增强对微小故障的检测能力。然而,辅助信号的引入不可避免地对系统性能造成影响,为此本文提出主动故障诊断和跟踪控制器的
学位