团队对抗性游戏决策系统的研究与实现

被引量 : 5次 | 上传用户:renalee9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能理论与技术在军事对抗和国民生产等领域的广泛运用,多智能体系统已用于诸多问题的求解。当前,团队对抗性游戏已成为了智能决策控制研究的焦点,如:战机空空协同作战系统、集群式作战机器人和Robocup仿真组足球机器人等。由于娱乐性、对抗性、动态性和不确定性,使其成为人工智能和机器人学结合的理想平台。这些系统,有着共同的特征。首先,比赛的形式是敌我双方阵型的团队博弈,其中每个机器人是具有决策能力的智能体。其次,在比赛过程中,不但要发挥自主角色个体技术,而且还能通过合作策略发挥集体力量。要获得博弈的胜利,必须集成许多技术,其中,决策系统是机器人是否具有高智能的体现,并且是团队对抗获胜的关键。本文对团队对抗性游戏决策系统展开研究,从团队的个体决策来实现团队的整体协作入手,本文设计了团队成员的双层决策模型,包括团队成员的高层协作策略和交互层基本行为策略。基于双层模型的决策系统简化了决策内容的设计与学习,增强了推理的能力,主要内容包括:(1)为团队成员设计交互层基本行为策略,团队成员通过执行交互层基本行为策略反映高层协作策略的整体意图,是高层协作策略学习的基础。本文采用Java规则引擎和遗传编程学习方法,设计交互层基本行为的混合策略控制模型,提高决策系统的易扩展、易修改性和自学习、自适应的能力。设计一种面向行为的、机器自翻译的TableRex语言,对遗传编程个体决策控制程序进行编码,提高遗传编程个体程序解析、执行和进化操作的效率。(2)在交互层基本行为策略的基础上,根据博弈论的冲突分析或相互影响的决策理论,提出了基于随机博弈的团队Agent协作强化学习算法,解决全自主控制方式下的团队成员高层协作策略的学习问题。同时,本文通过人工智能的存储方法,解决多Agent强化学习算法中组合空间和联合行为对存储空间的“维数灾难”性问题,建立人工神经网络存储组合状态和联合策略到长期得益矩阵的Q值映射。本文的研究选用RoboCode坦克仿真引擎作为验证平台,设计Robocode团队的组织结构和及其成员体系结构,团队内的通讯协议等,并着重研究其团队成员决策系统的设计与学习,分别对上面的内容进行了实现和检验。
其他文献
为了有效解决综采工作面液压支架回撤的安全隐患、降低作业人员劳动强度、减少材料消耗等问题,通过大柳塔煤矿52302综采工作面7 m大采高综采工作面回撤支架时采用五掩护顺序
李绅是中唐著名的政治活动家和诗人。他素有政治抱负,但身处党争漩涡之中,历经宦海浮沉,襟怀难展;长达数十年的“牛李党争”,基本上与李绅一生主要政治生活相终始,对其生活、思想和
由于我国市场经体制的创建和不断健全,各中小型企业以往先生产出产品再进行销售的模式已经不能满足市场的需求了,企业生产产品和经营的每一个程序都必须要迎合市场的需求,根
在清朝的众多文言短篇小说中,最富有创造性、文学成就最高的当数清初蒲松龄写的《聊斋志异》。对《聊斋志异》的研究,在诸多专家的努力下,已经取得了不少成果。本文从新的角度—
武馆史是武术发展史的一个重要组成部分。遗憾的是,前人对武馆的研究非常薄弱,对区域性武馆的研究更是寥若晨星,目前尚无专著问世。本文选择了武汉武馆作为城市区域武馆的研究对
本文主要介绍了公示语的分类和特点,着重研究了其汉英翻译。在阐述公示语翻译的现状及重要性后,总结了公示语的特点及其英译过程中语言和文化方面存在的问题,并概括介绍了功能翻
<正>从我国进入市场经济已来,我国的金融业发生了很大的变化,其中,证券业作为一个新事物进入政府及大众的视野。在2000年以后,随着全球股票市场进入了牛市,我国股民数量急剧
近年来,我国上市公司信息披露违规事件频频出现、屡禁不止,严重损害了广大公众的权益,打击了投资者的信心,影响着证券市场的健康发展。如何有效防治信息披露违规事件的发生已
本文主要分为三个部分。第一章讨论冯镇峦“有意作文”之文言小说观的提出。本章分三节:第一节主要讨论冯氏“有意作文观”的提出及内涵;第二节从思想之“有意”出发对《聊斋志
随着社会经济发展和建设规模的扩大,基本建设项目投资不断增加,工程建设中的不确定性因素不断增多,各类风险日益增多,相互关系错综复杂,而设计又是工程建设的灵魂,设计很大程度上决