论文部分内容阅读
在核电人机界面操作环境中,主要依赖专家操作.将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统.从而利用模仿学得的专家策略来为界面操作提供参考,以降低人为因素失误发生概率.用神经网络生成专家策略,以专家策略和生成策略之间的信息熵为损失函数来解决神经网络的收敛问题.最后,在Mujoco仿真环境中验证了该方法的可行性.