一种足球机器人多智能体对抗系统的分层变学习率增强式学习方法

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:enjoyyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以足球仿真机器人系统为研究平台,研究多智能体对抗系统的高层策略学习问题。通过对足球机器人系统的分析和研究,使用模糊手段描述了复杂的足球机器人状态空间;提出将MAXQ多智体分层增强式学习方法应用于足球机器人进攻策略的学习;并进一步提出通过融入一种在对抗系统中具有良好特性的变学习率学习法则而得到一种适合于多智能体对抗系统的策略学习方法。 多智能体系统是近年来人工智能领域的研究热点。它所体现出的群体智能、社会特性比起单智能体系统,更加符合许多应用领域的特点。足球机器人系统由于其可实现性,对抗性,系统模型的信息不完备性迅速成为这一研究领域的标准问题之一。多智能体系统的所有热点问题,如主体的研究、群体协作、智能体间通信等都体现在足球机器人仿真平台上。本文集中研究足球机器人高层策略的分层学习。通过对足球机器人仿真系统特点的研究,从中提炼出进攻策略学习问题作为本文的研究问题。 环境的描述是智能体学习的先决条件。多智能体系统的智能体大都处在复杂、时变、信息动态不完备的环境中。其环境描述需要根据具体问题来进行。本文分析了足球机器人系统的结构和参数特点,将模糊方法应用于描述其智能体(即单个球员)的状态空间,使用一个合理的状态数目有效描述了智能体所处的状态。 MAXQ分层多智能体学习方法是近年来被提出的一种新方法。它改进了传统的单智能体增强式学习方法,以适应多智能体环境的智能学习。本文将其应用于足球机器人系统的进攻策略学匀。实验证明该方法产生的策略能够实现进攻目的,适用于本文提出的足球机器人进攻策略学习。 足球机器人同时又是一个典型的对抗型系统。WOLF(Win or Learn Fast)变学习率学习法则是近年来提出并被验证的适用于对抗系统的学习法则。本文将其应用于MAXQ学习算法,得到一种适用于多智能体对抗系统的新方法。实验验证了该方法具有对抗系统的一些良好特性。
其他文献
数字水印技术通过将一些附加信息(即水印信息)直接嵌入到要保护的数字信息(如图像)中来实现版权保护和信息安全,是在20世纪90年代初期随着互连网技术的迅速发展和多媒体设备的
随着多媒体技术和通信网络技术的飞速发展,多媒体的数字化存储和传播越来越频繁,信息安全和知识产权保护等问题也越来越被人们关注,信息隐藏技术是近年来提出的关于信息安全
随着网络技术的飞速发展和下一代网络概念的提出,越来越多的人希望通过IP网络进行包括话音、视频、数据在内的多媒体通信。SIP作为一种应用层信令控制协议,以其结构简单、良好
下一代网络(NGN,Next Generation Network)是业务驱动的网络,而软交换是NGN的核心.软交换实现了两种重要的分离-业务控制和呼叫控制相分离、呼叫控制与承载控制相分离.NGN的
九十年代以来,互联网以惊人的速度发展,其影响已遍及各个行业领域。随着技术的进步,IP网络向实时通信领域拓展已成为可能。通过IP网络传送语音业务(Voice over IP network),
在各种通信系统中,由于信道中存在噪声的干扰会造成传输信号发生变化,从而在接收端发生错误。因此差错控制作为提高传输可靠性的关键技术,成为通信界的热门研究课题。Turbo码具
人脸自动识别是目前模式识别领域中具有广阔应用前景和实际应用价值的热门研究课题.人脸的自动识别就是用计算机对人脸图像进行分析,并从人脸图像中提取有效的识别信息,用以
本文介绍了人脸识别和人脸检测技术的研究背景和现状,介绍了人脸检测的常用算法,并在现有算法的基础上,结合了众多算法的优点,提出了一套比较快速、准确的人脸检测算法。该算法通
该论文介绍二次雷达的基本概念、发展历史、工作流程和运作机理以及单脉冲二次雷达的系统原理,并且对传统的单脉冲二次雷达应答信号处理器的硬件结构进行改进,提出一种全新的
随着移动通信的发展,频谱资源显得日趋紧张,使得人们努力开发高效的编码、调制以及信号处理技术来提高无线频谱的效率.信息理论的发展指出,通过采用多根发射天线多根接收天线