基于马尔可夫决策过程理论的Agent决策问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:q546609271
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能被认为其主要目标是构造可以决策出智能行为的Agents,即这些Agents能够在多方面再现人类可以做出的智能行为。马尔可夫决策过程(MDP)可以用来描述和处理大规模不确定性环境下的Agent决策问题。RoboCup机器人世界杯是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动,RoboCup仿真2D比赛是RoboCup所有项目中以Agent决策为重点的一个分支。本文以马尔可夫决策过程的相关理论为基础,以RoboCup仿真2D比赛为实验平台,对Agent决策相关问题进行了研究。本文的主要工作可以概括为以下三个方面:本文重构并实现了一个完整的RoboCup仿真2D球队决策系统WE2009。该系统以部分可观察随机博弈(POSG)的模型为理论基础,包括信息处理、高层决策和行为执行三个模块。特别是高层决策模块,采用基于独立行为生成器的结构设计,不仅可以充分利用Agent的决策时间,而且可以提高团队合作的效率。本文提出了一类特殊的马尔可夫决策过程,即行动驱动的马尔可夫决策过程(ADMDP)。本文分析了ADMDP的理论模型,提出了ADMDP的相关求解方法。该方法采取离线值迭代与在线搜索相结合,在本文中用来求解RoboCup仿真2D比赛中的不离身带球问题,使Agent的带球性能有了较大的提高。本文提出了一类特殊的马尔可夫博弈,即基于阵型的零和马尔可夫博弈(FZSMG)。本文分析了FZSMG的理论模型,并以此为基础来描述RoboCup仿真2D比赛中的Anti-Mark问题。针对Anti-Mark问题,本文提出了一个基于阵型变换的启发式求解方法,使球队在与盯人防守的对手比赛时取得了较好的效果。本文的所有工作都是基于WE2009实现的,WE2009在完成后参加了2009RoboCup机器人世界杯和2009中国机器人大赛两次重要比赛,并且全部获得冠军。
其他文献
白花蛇舌草为茜草科植物白花蛇舌草Oldenlandia diffusa (Willd.) Roxb.的全草,有清热解毒、活血利尿等功效。半枝莲为唇形科植物半枝莲Scutellaria barbata D.Don的全草,具
幽默总是在善意的微笑中揭露生活中乖谬和不通情理之处。幽默不是轻薄和滑稽逗乐,更不是低级趣味,它具有高雅性,是人们高尚情趣和完美人格的外观。正如列宁所说:“幽默是一种
日 前,曾任通辽市一把手仅9个月、充当黑恶势力“保护伞”的内蒙古自治区落马厅官傅铁钢被审查起诉,并开除党籍。细数其违法乱纪事实,其中一项便是为儿子安排工作,默许其“吃空饷”。一段时间来,“吃空饷”现象五花八门,这种现象为什么在一些地方和单位屡禁不绝?  在这些林林总总的吃空饷方式中,最常见的莫过于以权谋私,为家人谋求“空饷”。  “我觉得让妻子去镇里的企业挂个信息员的名儿挺好,不用上班,还能给上社
<正> 1993年10月6日~7日,日本钛协会参观了在福井县鲭江市举办的日本眼镜’93展览会,并与福井县眼镜协会进行了信息交流,参观了眼镜架制作工厂。下面介绍这一活动的概况。
期刊
灸法是我国古代劳动人民在长期与疾病作斗争的过程中创造的一种非药物疗法。其治疗效果受到古今医家的肯定。然而,同时和灸量与灸效有密切关系的灸感,获得了众多针灸治疗学者
高校毕业生就业难的问题一直以来备受关注。近年来,随着高校扩招和大学生“自主择业、双向选择”制度的建立,大学生就业形势日益严峻。在劳动力市场中,企业利用双方地位不平
探索活动是人类赖以生存和发展的基本活动。人站立起来,并学会使用工具,从而有别于其他动物,是人类不断探索的结果;从愚昧野蛮走向文明智慧,从原始社会走向阶级社会,是人类不断探索
本组课文涉及的范围较广,有表达爱国感情的,有慨叹时光流逝的,有回忆启蒙老师的,还有赞颂伟大人格的。教学本组课文,可根据重点训练项目“从阅读的内容想开去”的要求,结合各篇课文
对幼儿进行科学教育,幼儿园是个重要阵地。但是,多年来由于传统教学模式的长期束缚和诸多外界因素的影响,幼儿园的科学教育仅以教材中科学领域的知识为内容,形式以灌输为主,用这种
当前我国保险业在快速发展的同时,存在着一些突出矛盾和问题:“规模扩张”的粗放式经营、保险人违规欺诈、行业自律能力差、保险监管技术落后、保险市场信息不对称。保险人信