论文部分内容阅读
科技时代,人工智能充斥在我们生活的各个领域,从AIphaGo到AlphaZero都在渔释着它的强大。机器学习作为人工智能的核心,是使计算机具有智能的根本途径。强化学习作为机器学习研究领域的一个热门方向,其通过智能体与环境的交互作用,从中汲取经验,以自学习的方式不断更新改进控制策略,逐步达到最优或近优控制效果。由于强化学习是一种无模型无监督的机器学习方法,因此具有通用性强,适用范围广泛,参数自整定等优点,能够极大降低控制系统的设计难度和人力投入,具有广阔的应用前景。因此,研究强化学习具有重要的理论价值和实际工程应用价值。倒立摆系统是一个多变量、非线性、高阶次、强耦合的自不稳定系统,能够模拟反映多数常见的控制对象,其控制算法具有多输入单输出的特点,因而是一种典型的自动控制理论研究装置。以该问题作为研究对象,能够有效反映出控制算法在实际应用系统中的随动性、鲁棒性、跟踪及镇定性等问题。因此,本文以一级直线倒立摆系统为对象,进行深度强化学习算法的研究。主要研究内容以及成果如下:(1)对强化学习的基础概念进行介绍并分析。通过对常用强化学习算法的理论推导和马尔科夫决策过程各参数分析,为强化学习以及深度强化学习算法在倒立摆控制系统中的应用奠定了理论基础。(2)通过OpenAI Gym游戏库,完成了深度强化学习DQN算法、双网络DQN算法、PG算法在一级直线倒立摆平衡控制中的实验仿真。结果表明,三种控制算法均可以快速完成训练,达到对倒立摆的平衡控制。在此基础上,论文进一步研究测试了三种不同reward给定方式对算法的影响,通过实验比较,发现线性化reward方式具有最快的训练速度,从而为强化学习在真实倒立摆控制训练提供了重要经验。(3)搭建了基于PLC的一级直线倒立摆硬件实验平台,通过PID控制算法对倒立摆的平衡控制,验证了实验平台的有效性,并为强化学习算法的控制研究提供了测试基准。(4)基于DQN算法,实现了一级直线倒立摆的起摆控制。经过大约50个训练回合后,控制算法即可在200个控制周期(一个控制周期为20ms)内,使摆杆由下垂位置摆动到直立位置附近,完成倒立摆起摆控制。(5)基于Q学习算法,研究了倒立摆平衡控制。针对真实控制环境中噪音较大、训练量受限、部分训练样本难以获得的局限性,研究设计了具有多元训练策略的off-policy控制算法,该算法能够从人工示教或其他控制算法中获取经验,提高训练效率,从而通过有限实验快速完成训练并获得更好的控制效果。由于该方法有效降低了实验训练量,从而使强化学习算法以更小的人力投入,获得更好的控制效果,为强化学习在实际工程的应用做了初步的实践,具有良好的应用前景。