论文部分内容阅读
在制造系统的生产过程中,生产设备状态的衰变会降低产品的质量水平,导致多成品率质量问题。本文针对此类具有多成品率质量问题的衰变设备,建立部分可观马尔可夫决策模型,采用基于强化学习的预防维修(RLPM)策略来求解。首先,本文描述了衰变设备的维修问题,并建立部分可观马尔可夫决策模型,考虑两类检测误差及一系列收益和成本参数,通过一种基于平均奖励的强化学习算法—Q-learning算法,根据每组系统观测信息,即产品质检数据和距离上次维修以来的时间,做出最优维修决策,决定是否触发维修行动,从而最小化系统