基于Markov决策理论的足球机器人协同机制研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:HUYA123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统的协调和协作机制,是目前人工智能研究的重点领域之一。多智能体系统的广泛应用决定了研究其协调协作机制有很大的现实意义。本文以机器人足球比赛为背景,研究基于Markov决策过程(MDP)理论的多智能体协调和协作机制,完成的主要研究成果如下:首先在一类通信条件良好的集中式控制方式下,基于任务层次分解的决策框架,结合博弈论的有关概念和方法,提出了一种基于效用函数预测的在线策略规划算法。在FIRA2D仿真组比赛平台上的实验结果表明,该算法能够进行合理的行为选择,实现良好的团队合作效果。其次,针对一类感知和通信受限的分布式大规模决策问题,应用基于MAXQ值函数分解的任务层次分解方法,提出了一种在线策略求解算法,MAXQ-RTP算法。该算法设计了一种充分利用问题域受限的感知和通信资源的多智能体决策系统框架,基于与或图表示可行策略,在线实时地求解当前状态下的最优策略,可用于解决连续状态空间和动作空间的决策规划问题。论文的主体实验工作在分布式控制的RoboCup2D仿真组比赛平台上进行。通过对智能体有限感知和通信、决策系统规模等特点的分析,采用基于MAXQ值函数分解的MDP任务层次分解方法对球员智能体的决策问题进行建模,通过MAXQ-RTP算法在线求解智能体的最优策略。实验结果表明,该方法有较高的计算效率,通过协同决策使球队取胜的效果良好。由于使用MDP模型进行球员智能体建模中对队友和对手策略的简化处理,上述MAXQ-RTP算法有可能丢失一些最优对策。下一步的研究工作主要是将模型扩展到对策论框架中,结合队友和对手的可能策略,求解最优对策。
其他文献
针对电镀溶液中存在的一些有害有毒物质 ,如CN- 、F- 、Cd2 +、Pb2 +、Cr6 +等 ,详细讨论了无氰化电镀、无氟无铅电镀、代铬电镀、代镉电镀等工艺的研究和应用 ,对不同镀层性
目的了解宁波口岸进口水产品中副溶血性弧菌的耐药性和毒力基因分布情况。方法将分离自宁波口岸进口水产品中的129株副溶血性弧菌作为研究对象,利用K-B纸片扩散法测定细菌对1
随着经济社会的发展工农业剪刀差呈现出不断扩大的趋势,对于小农生产来说随着种地成本不断升高,农民种粮收益不断下降;虽然国家有粮食收购保护价政策,但该政策并没有全覆盖我
由深圳大学主办的“中美排污许可管理立法研讨会”就中美排污许可证管理的不同环节,从如何颁证、如何监管、谁来监管到如何问责,采用何种方式执法等,开展了理论和实践层面的
选择2012年1~6月,在门诊输液中心接受地佐辛注射液静脉滴注的外伤、腹痛病人260例,对地佐辛药物产生的不良反应进行观察。结果地佐辛注射液10mg加入5%GS(或NS)500mL、平躺输注
在古为今用、洋为中用,而又力求面对现代化、面对世界、面对未来的广阔视野中进行文化建设,最为关注的问题是文化的原创性、现代性和共享性。$$    创新,尤其是原始性创新,是
报纸
介绍了薄壁不锈钢管波纹卡粘式连接的原理、安装方法、注意事项以及工程应用情况,试验研究了波纹卡粘式连接件的连接强度、密封性、使用寿命等。结果表明:经完全固化后,波纹
随着高效绿色切削技术的发展,低温微量润滑技术应运而生。它是在微量润滑的基础上结合低温冷风发展而来。文中简要介绍了低温微量润滑技术及其切削性能。低温微量润滑技术体
介绍了一种陶瓷泥浆挤出机的设计,装置采用拼接式的连接方式,主体与喷嘴部分使用螺纹连接,通过螺纹预紧力压紧硅胶垫片从而形成封闭管路。挤出机的制造工艺除喷嘴外均采用FDM
根据应用于火炮的冲击型磁流变(MR)阻尼器的特点,基于Herschel-Bu lkley本构模型,建立了某25 mm火炮磁流变后坐阻尼器的平行板一维层流模型,获得了不同磁场作用下阻尼力随活