论文部分内容阅读
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。目前主流的强化学习算法是Q学习算法,但Q学习本身存在一些问题。首先,Q学习算法不能适用于连续状态空间和动作空间的学习,其次,当状态空间很大时,Q表在内存中的存储以及查询都变得十分困难。最后,Q学习算法的学习速度较慢。本文针对RoboCup中的具体问题,结合模糊推理系统对Q学习算法进行了一些扩充和改进,使其适用于复杂环境下的Agent智能决策。本文的主要研究工作如下: 首先,提出一种模糊Q学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库可以为Agent的动作选择提供依据,通过这个规则库可以实现动态规划。我们将这个算法应用于RoboCup中,实现了踢球策略的优化。 其次,针对RoboCup中的截球问题,提出了一种多回报模糊Q学习算法。该算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习,通过学习得到一个完整的规则库。为了实现Agent短期利益和长期回报间的平衡,算法从不同角度考虑动作的回报值。我们应用该算法成功的解决了RoboCup中的截球问题和2VS1高层决策问题。 最后,提出了一种基于先验知识的模块化Fuzzy Q学习算法,用于解决连续状态空间下的多Agent学习问题。该算法采用模糊推理系统进行状态空间的泛化,使用先验知识以提高算法在初始阶段的性能。另外,为了解决复杂环境下的学习问题,算法采用模块化的方法对问题进行目标分解,并且在Agent的决策时考虑环境中其它Agent的动作,以实现决策的最优化。我们在RoboCup环境中验证了该算法,仿真实验结果证明算法可以有效的解决Agent合作问题。