基于混合抽象机制的多智能体系统动态分层强化学习算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:yilongfengyue5656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,强化学习本身存在“维度灾难”问题,所需的存储空间和计算量很大。因此,将强化学习应用到多智能体系统时,随着智能体个数的增加,动作空间和状态空间呈指数级增长,会加剧“维度灾难”问题,学习效率非常低下,导致多智能体系统难以及时甚至无法完成学习任务。因此,如果能有效缓解“维度灾难”问题,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高多智能体系统在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。为提高复杂环境下多智能体策略学习的效率,论文研究将分层强化学习技术和基于模型的强化学习技术相结合的方法,针对分层条件下智能体策略学习、策略空间动态分层,以及多智能体系统动态分层与策略学习相结合这三个多智能体系统动态分层强化学习算法研究的关键问题,阐述了结合Bayesian学习和MAXQ学习方法的静态分层强化学习算法(Bayesian-MAXQ);进而研究状态抽象技术,实现基于概率模型的动态分层强化学习算法(DHRL-Model),通过分析合作式多智能体系统策略学习的特征,对DHRL-Model进行扩展,将动作抽象和状态抽象相结合,实现多智能体系统的基于探索信息自适应聚类的多智能体动态分层强化学习方法(MADHRL-ACEI)。具体而言,论文的研究主要包括下述几个方面:(1)动态未知环境下动态分层学习的可行性分析论文首先从强化学习的本质出发,分析引起“维度灾难”的原因。进而通过分析和比较多种分层学习方法,阐述状态抽象和动作抽象思想在缓解“维度灾难”的优势和不足,以及静态分层学习在动态未知环境下的缺陷。针对MAXQ静态分层架构的特点,运用状态抽象和动作抽象思想,分析基于模型学习方法实现MAXQ值函数分解的可行性,并提出实现MAXQ动态分层的关键问题。(2)提出一种基于模型的静态分层强化学习算法Bayesian-MAXQ为了充分利用基于模型法(如贝叶斯学习)学习效率高的特点和MAXQ分层框架具有良好在线学习能力的优势,论文研究融合贝叶斯学习和MAXQ值函数分解算法的方法,解决分层条件下贝叶斯学习中的数据记录和值函数迭代更新问题。主要的改进包括:增加一个维度用于表示子任务的标号,实现与MAXQ状态空间的统一;增加位于所有层次内状态-动作对之间的联系,建立状态转移的前向和逆向拓扑关系;改进Prioritized Sweeping算法中的优先级计算方程,实现分层框架下值函数的动态规划求解。最终提出一种基于模型的静态分层强化学习算法Bayesian-MAXQ,并通过典型的出租车任务验证了Bayesian-MAXQ算法的有效性。(3)提出一种基于概率模型的动态分层强化学习算法(DHRL-Model)Bayesian-MAXQ算法只是改善了已知分层结构下强化学习的效率。为了满足在未知大规模复杂动态环境中的应用需求,论文研究运用状态抽象思想实现MAXQ分层结构的动态实现方法。通过研究基于子目标的状态聚类方法,实现子目标状态点的自动识别,并基于子目标状态集合实现类MAXQ分层结构的自动分层和学习过程中分层结构的动态更新。在动态分层基础上,运用Bayesian-MAXQ算法搜索智能体解空间动态分层条件下的递归最优策略。从而形成DHRL-Model算法,显著提高未知环境下智能体的学习效率。(4)提出一种基于探索信息自适应聚类的多智能体动态分层强化学习算法(MADHRL-ACEI)为了缓解合作式多智能体强化学习过程中面临的严重“维度灾难”问题,提高多智能体系统的学习效率以满足未知复杂多智能体环境下的应用需求,论文研究并提出一种基于探索信息自适应聚类的多智能体动态分层强化学习方法MADHRL-ACEI。通过研究基于状态自反周期的多智能体动作抽象算法,融合单智能体DHRL-Model算法中的状态聚类方法,提出了基于探索信息自适应聚类的多智能体动态分层算法,实现在动态未知环境下,多智能体系统类MAXQ结构的自动生成和动态优化。结合Bayesian-MAXQ算法,实现了多智能体环境下,在动态分层条件下,合作递归最优策略的自学习,并大大降低各子任务的策略搜索规模,加快任务的学习速度。通过仿真试验表明,该算法能显著提高未知环境下多智能体系统的学习效率,有效的缓解了多智能体系统实际应用的瓶颈问题。
其他文献
为了寻找全断面岩石掘进机(TBM)刀盘分体最优的设计参数,文章采用了一种分体结构参数化优化设计方法。首先,考虑了分体在刀盘系统中的耦合关系,建立TBM刀盘系统多自由度耦合
分子生药学是一门新兴的科学。根据已有教学经验提出要从重视绪论、重视基础知识和方法技术、重点突出和把握前沿4个方面对课程教学内容进行深化改革,从而提高教学质量,适应
<正>来自墨西哥驻华大使馆的消息,2016年11月25日,墨西哥农业、畜牧业、农村发展、渔业和食品部(SAGARPA)-墨西哥国家食品卫生、安全和质量服务局(SENASICA)与中国国家质量监
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
原子荧光法测定食品总砷是目前食品测量中应用范围较广的一种方法,但是该方法也存在消解样品控制困难、测定结果浮动大和试剂消耗大等问题,文章主要针对这几种影响因素进行改
1968年我在上大学,学哲学,在巴黎西郊的楠泰尔(Nanterre)。这个地方是1968年运动的摇篮。那时候我19岁,还不是太关心政治。我是左派,但也不是非常投入的那种。当时已经看到有
<正>布艺沙发触感柔软,能增添居室的温馨感。现在市场上品种多,质量却参差不齐。还发生过拿废旧材料当沙发衬垫的恶劣事件。提醒大家在挑选时千万仔细,别被漂亮的外包装给迷
以色列钻石业的超常发展,遵循的其实是跟高科技产业类似的轨迹:在自然资源缺乏的情况下,孜孜以求人力和技术资源的最大化,创造高附加值。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
优化问题普遍存在于现实世界的各个领域。群体智能算法是一种模拟生物群体智能行为,求解优化问题的自然计算技术。如何能更加真实的模拟生物群体行为,以解决复杂优化问题,是群体