论文部分内容阅读
适应性计算是近年来与控制理论结合最紧密的一类机器学习方法。目前学术界一般将适应性计算的研究范围局限于两个研究课题:其一是遗传算法,其二是强化学习。本文的研究工作围绕强化学习展开研究。与多数研究强化学习的立足点不同,本文突出体现了以下两个特点:一是以算法为中心;二是以解决工程问题为目的,强调工程应用,而不是偏向人工智能。
强化学习方法最大的特点是与系统模型无关,这个特点使得强化学习方法非常适合解决复杂大系统的最优控制问题。但是,强化学习算法收敛速度慢在很大程度上限制了其更广泛的应用,本文研究了加快算法收敛速度的方法,并在理论上进行了证明,包括以下两方面研究内容:
在研究解决策略评价问题的算法方面,本文所做工作为统一研究已有加快算法收敛速度的方法,在相同假设条件下,研究TD学习和基于最小二乘法的TD学习两类算法的收敛精度和计算量,并证明它们的收敛性,得出不同算法收敛精度相同,不同的是算法收敛步数和单步计算量,从而清晰地表达出不同算法之间的异同之处。本文还得出基于最小二乘法的TD学习算法执行效果等价或接近等价于基于模型的算法的结论,据此可以解释基于最小二乘法的TD学习算法收敛速度快、样本利用率高的原因,并提出了在各种算法之间做选择时,需要着重考虑的五个方面。
在研究解决搜索最优策略问题的算法方面,本文以工程应用为目的,建立了基于工程领域知识的强化学习系统,将强化学习系统与先验知识(尤其是工程领域知识)结合起来,达到缩小状态空间,加快收敛速度的目的,并证明了该系统的收敛性问题,分析了收敛结果、先验知识和原始系统三者之间的关系。新系统的核心思想是由先验知识决策在先验知识可控态处的动作,而强化学习算法被用来学习先验知识无法实现的最优策略。一个关键结论是收敛结果与先验知识一致,即,在先验知识可控态处由先验知识决策动作,在先验知识非可控态处的动作由经过学习获取的策略决策。半马尔可夫决策过程上的强化学习算法是本文提出的基于工程领域知识的强化学习系统的理论基础,本文给出了半马尔可夫决策过程上Q-学习算法的收敛性证明。
应用基于工程领域知识的强化学习系统解决电梯群控问题,设计了一个基于常规群控算法的强化学习群控系统,在电梯仿真试验台上进行了实验,与常规群控系统和常规强化学习群控系统进行了详细比较。结果表明,基于先验知识的强化学习群控系统在性能上优于常规群控系统,略差于常规强化学习群控系统,而基于先验知识的强化学习群控系统在收敛速度上要远快于常规强化学习群控系统。实验结果还验证了基于工程领域知识的强化学习系统的收敛结果与先验知识一致的特性。其它所有关于强化学习的研究都侧重用强化学习算法解决问题,而本文的工作侧重用已有的工程领域知识解决问题,强化学习算法作为辅助工具改进工程领域知识的性能,更为难得的是这可以在工程领域知识无须做任何修改的情况下实现。
本文围绕哈密顿-雅克比-贝尔曼方程,研究了连续时间系统最优控制问题的强化学习解决方法。建立了基于前馈神经网络的强化学习算法,进一步分析了收敛结果与哈密顿-雅克比-贝尔曼方程的粘性解之间的关系,指出该算法逼近哈密顿-雅克比-贝尔曼方程的广义解,而这种解对于哈密顿-雅克比-贝尔曼方程来说不是唯一的,造成学习结果对于学习系统的参数设定比较敏感。
提出一个精确收敛至粘性解的强化学习算法结构,以收敛定理的形式给出,本文依据此定理证明了有限元强化学习算法。本文还研究了结合先验知识的连续时间强化学习系统,建立其数学模型,并且初步研究了在此数学模型上的价值函数和Q值函数的性质和算法。这些都是研究结合先验知识的强化学习方法的基础性工作,在此基础上进一步设计各种强化学习算法是一个值得深入研究的方向。