分布式强化学习理论及在多机器人中的应用研究

被引量 : 0次 | 上传用户:caoerduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是近年发展起来的一种新的人工智能方法。由于人类对脑的真实结构了解甚少,至今无法清楚地解释智能的本质,只能依靠对人类智能系统的观察和猜测来定义人工智能系统的结构和外部特性,这种传统的基于逻辑规则的人工智能方法有诸多缺陷,所以人们转向了让人工智能系统通过自我学习来逐渐地获得智能的研究方向。强化学习就是这样一种机器学习方法,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。 机器人是对人类个体的仿生,而多机器人系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,所以对多机器人系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。 系统地介绍了强化学习的基本原理、体系结构和主要算法,研究了各种强化学习算法的特点和适用范围。 研究了分布式强化学习系统的体系结构和主要算法,并根据体系结构的差异将其分为四类。介绍了这四类分布式强化学习系统的体系结构,形式化定义了它们的结构框架,描述了它们的主要组成部分的相互关系,讨论了它们的特点和适用范围等。 研究了分布式强化学习系统的结构信度分配方法。针对目前仅有的两种结构信度分配方法显失公平、不能真正体现智能体贡献大小的现象,提出了一种通过比较智能体动作的变化来分配信度的非线形规划方案,并通过对计算过程的分解获得了可行的结构信度分配算法,然后根据强化学习是一种增量式学习的特点将此算法修订为增量式的结构信度分配算法。 研究了独立强化学习系统内的信息共享方式,规范化了几种主要信息共享方式的算法流程,并比较了这几种主要信息共享方式的特点和适用范围。提出了基于有色轨道理论和基于状态分量重要性的两种状态空间划分方法,这两种方法可以压缩独立强化学习系统的学习空间,加快学习速度。 针对群体强化学习系统的学习空间随着智能体个数的增加而指数级膨胀的问题,提出了一种基于预测的群体强化学习算法。这种方法可以削减学习哈尔滨工程大学博士学位论文单元的冗余状态信息,降低学习空间的组合强度,加快群体强化学习算法的学习速度。 以多水下机器人的编队任务为例探讨了分布式强化学习在多机器人系统中的应用模式。仿真实验系统实现了多机器人的编队学习功能和避碰学习功能,实验结果表明机器人能够形成规整的队形,并能在通过障碍物或队形被打乱后迅速重新回到编队位置。
其他文献
高等学校担负着科学研究的重任,科研是高校教师重要的职责之一。但高校教师的科研业绩评价并不能完全等同于科研机构人员的科研业绩评价,因为高校还具有另外一个神圣的职责——
哈尔滨商业机械总厂是一个典型的食品机械制造企业,以制造饺子机而闻名。当前,国有食品机械生产厂商正面对着国内外同行业竞争企业的强有力的挑战,许多食品机械生产企业不景气,而
本文首次对大锥角轧机止推圆锥滚子轴承进行优化设计,并且对该类轴承的内部受力状况和滚子的接触应力、内圈大挡边锥面形式和内圈挡边强度计算进行了深入系统的分析。 编写
夫妻财产制亦称婚姻财产制,是规定夫妻财产关系的法律制度,其包括夫妻婚前财产和婚后所得财产的归属、关联、使用、收益、处分以及与此密切相关的财产责任问题。我国现行的夫
空战武器装备是空军武器装备体系的重要组成部分,空战武器装备论证对于空军武器装备的发展建设具有至关重要的作用。空战武器装备发展论证需要采用定量分析的方法评估装备作战
从我国高等教育发展和改革的历程看,学科建设是推动高等学校整体水平提高的有效途径。当前,中国的教师教育面临基础教育改革以及教师专业化的挑战,“改革”和“转型”已成为高等
文章基于我国1979~2011年的数据,通过建立VAR模型对其进行了检验,并进行脉冲响应函数分析,方差分解和格兰杰因果分析。实证结果表明:经济增长是政府规模的格兰杰原因,即当国民
我国慢性病患者数量庞大,而医师和医院数量相对不足,应积极借助远程心脏监护技术解决这一问题。远程心脏监护技术可用于心血管病患者的检查、监护及管理,健康状况评测和急危
时下,国内外关于产业集群的研究探讨颇多,产业集群已经引起学术界和相关政府部门的高度重视,研究江西产业集群具有一定的现实意义和理论价值。世界范围的财富并非均匀分布的,而大