论文部分内容阅读
Agent和多Agent系统的理论和技术已成为分布式人工智能和计算机科学技术的核心研究内容之一,其中通信和学习是Agent应具备的两个重要技术。对于处于不断变化的、复杂的外部环境之中的Agent来说,必须具有学习能力,以适应自身所处的动态环境,需要有效的通信技术和方法,才能使Agent之间可以进行交互、协商与合作。在Agent的学习中,强化学习是其中主要的一类学习方法,被公认为是构成Agent的核心技术之一。通信协议是Agent通信中有效交换信息和知识的基础。 本论文对强化学习和通信协议中的一些热点问题做了深入的研究,在前人研究成果的基础上做了一些有效的改进和有益的尝试。主要研究内容和研究结果如下: (1) 在深入分析强化学习的基本原理和Q-学习算法的基础上,结合Agent的知识和逻辑推理机制,提出一种基于知识的Q-学习算法(KBQL)。利用Agent的领域知识来缩小要学习的状态空间,从而加速强化学习算法的收敛速度,并采用Agent内部的学习机制,不断修正Agent知识的不准确性,提高学习算法的适应性和鲁棒性。通过对Grid World例子进行的仿真试验,其结果表明:即使是不很精确的知识,KBQL算法与常规Q—学习算法相比,在收敛速度上具有明显的优势。 (2) 对标准Sarsa(λ)算法中的资格迹进行了深入分析,得到一个改善的Sarsa(λ)算法,它的计算时间复杂度为D(|A|),在此基础上设计了一个启发式回报函数,得到了一个带有启发式回报函数的Sarsa(λ)算法。启发式回报函数的引入,在理论上不会影响原有问题的最优策略,但可以利用Agent的知识,引导Agent在所期望的状态空间内进行搜索,从而改善学习算法的学习效率和收敛速度。 (3) 对一个分布式的RoboCup Soccer仿真环境中的Keepaway Soccer进行了研究,它是一个强化学习算法的测试平台。针对keeper的策略学习问题,根据足球常识设计了一个带有先验知识的强化学习模型,通过仿真试验,其结果表明具有先验知识的学习算法与无先验知识的学习算法相比,具有明显的优势。 (4) 通信语言和通信协议是Agent之间高效交换信息和知识的基础,本文在通信语言理论基础上,提出了一个可动态修改通信协议的Agent通信模型,使系统动态修改和添加通信协议,而不需要修改系统的源代码,从而大大减少系统的维护工作量,增加了系统的适应能力和稳定性。并结合电力系统的通信