基于智能体的多机器人系统学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：maigansws

【摘要】

：

与单个机器人相比较,多机器人(MRS)具有很多优势和良好的发展前景,已经成为机器人领域中的研究热点。多机器人系统是一个复杂的动态系统,在设计机器人控制策略的时候,通常不

【作者】

：

刘强

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

智能体多机器人系统机器学习基于行为的方法强化学习无悔策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

与单个机器人相比较,多机器人(MRS)具有很多优势和良好的发展前景,已经成为机器人领域中的研究热点。多机器人系统是一个复杂的动态系统,在设计机器人控制策略的时候,通常不能够预先为每个机器人设定好所有的最优行为。基于行为的方法能够让多机器人系统呈现出一些智能的特点,完成比较复杂的任务,极大地促进了多机器人系统的发展。但是仅采用基于行为的方法还不能完全适应不断变化的外界环境和不同任务的需求,让多机器人系统具有自主的学习能力,同时避免单一学习方法的局限性,从而不断提高个体机器人之间的协调协作能力是多机器人系统的重要发展方向。因此研究将不同的机器学习方法与基于行为的多机器人系统相结合具有很好的研究意义。本文采用智能体理论对多机器人系统进行研究,其主要的研究内容包括:首先,研究了智能体及多智能体系统的理论,分析了单机器人和多机器人系统的几种体系结构,提出将基于行为的方法和基于学习的方法相结合来探索多机器人协同的研究思路,同时设计了基于行为的机器人编队和足球系统。在多机器人系统众多的研究内容中,学习能力占据了重要位置。基于行为的方法具有鲁棒性强、灵活的特点,相对于其它的方法能更好地使机器人完成任务。本文以基于行为的方法为基础,结合不同的机器学习方法,针对多机器人系统的两个主要应用平台:机器人编队和足球,在机器人仿真软件Mission Lab和Teambots的基础上,设计了基于行为的多机器人系统,从而可以对本文提出的几种算法进行验证。其次,研究了粒子群优化算法(PSO)和基于案例的推理(CBR)方法,针对这两种方法各自的优势,提出了一种融合PSO与CBR的混合系统方法。传统的基于行为的方法虽然具有很多优点,但是其固定的行为参数难以适应外界复杂的环境。CBR作为人工智能中的一项重要技术,因为其具有易于检索和存储的特点,很适合为不同的行为提供相应的参数。但是传统的CBR方法缺乏有效的学习能力,因此本文提出将PSO作为CBR的优化器,让CBR不断得到更好的案例,同时PSO也可以通过CBR获得更好的初始种群。与遗传算法(GA)相比较,PSO也是一种群智能方法,但是具有结构更简单、实时性强和适合对连续问题进行优化的特点,可以说遗传算法能够解决的问题,粒子群优化算法都能够解决。本文将PSO算法与CBR方法相结合,不仅克服了CBR的缺点,同时也满足了实时性和对连续问题进行优化的需求。同时以基于行为的机器人编队为测试平台,与标准的粒子群优化算法相比较,验证了该方法的有效性。然后,研究了强化学习的基本理论和典型的Q-学习方法,针对传统Q-学习在多机器人系统中应用的缺点:缺乏信息交流和结构信度分配问题,提出了一种采用经验共享和滤波技术的改进Q-学习算法,从而改善了学习性能、提高了学习效率。Q-学习算法的理论基础是马尔可夫决策过程,直接把Q-学习应用到多机器人系统中虽然破坏了这个前提,但是Q-学习因为具有运算简单、状态-动作空间规模小的特点,在机器人学习中还是得到了广泛应用。与多智能体强化学习方法相比较,传统的Q-学习算法缺乏与其它智能体的信息交流,因此本文提出了采用经验共享的方式,每个智能体共享其它智能体的Q值信息,在学习的过程中采用了渐进的学习方式,利用?-Greedy策略以1-?的概率来选取其它智能体的学习经验。同时为了加速Q-学习的收敛,不同于简单地把回报信号统一分配给每个智能体,本文将卡尔曼滤波技术运用到回报信号的分配中,即把接收到的回报信号看作是真实的回报信号与噪声信号的结合,在一定程度上解决了结构信度分配问题。以机器人足球为测试平台,与传统的Q-学习算法相比较,验证了该方法的有效性。最后,研究了几种典型的多智能体强化学习算法Minimax-Q、Nash-Q、FFQ和CE-Q和基于后悔理论的学习方法,针对传统的CE-Q算法收敛速度慢的缺点:缺乏有效的行为探索策略,提出了一种采用无悔策略的新型CE-Q学习算法。马尔可夫对策理论为多智能体强化学习提供了很好的理论基础,纳什均衡在多智能体强化学习中起到了重要作用,因此这些算法也被称作基于均衡的学习算法。与Nash-Q学习算法中计算纳什均衡相比较,计算CE-Q中的相关均衡更容易,因此CE-Q有着更好的应用前景。但是传统的CE-Q学习方法缺乏有效的行为探索策略,因此影响了CE-Q学习方法的收敛速度。从无悔策略的理论中得到启发,如果每个智能体都选择减少平均后悔值的方法作为行为探索策略,那么所有智能体的行为将趋向于收敛到一组没有后悔值的集合点,这组集合点也被称为粗糙相关均衡集合。同时经过分析得到,纳什均衡和相关均衡在本质上都属于粗糙相关均衡。因此本文提出了采用减少平均后悔值的新型CE-Q学习算法,加快CE-Q学习方法的收敛速度。最后以机器人足球为测试平台,与传统的CE-Q学习算法相比较,验证了该方法的有效性。

其他文献

骨髓间充质干细胞体外对T淋巴细胞分泌IL-2、IL-4功能的影响

目的:探讨间充质干细胞(Mesenchymal stem cells,MSCs)对T淋巴细胞分泌功能的调节作用。方法:体外分离培养、扩增人骨髓MSCs,并通过形态学特征及流式细胞术检测其表面标志加

期刊

间充质干细胞骨髓免疫调节细胞因子T淋巴细胞

污水干管接入高水位运行进水井施工技术

南京市某污水干管工程采用顶管法施工,管道终点需接入污水处理厂内一高水位运行的进水井,且井壁未事先预留接入洞口。针对如何稳定进水井井内水流、平衡水压、保证顶管安全进

期刊

地下工程混凝土污水干管接管钢围堰施工技术

基于“阳虚阳浮”理论探讨重镇药物在儿科的临床应用

阳虚阳浮证的根本在脾(肾)阳不足、运化失司、虚阳浮越,治疗以温潜法则诸证可除,常用方有桂枝汤、小青龙汤、黄芪建中汤、理中汤、附子理中汤、真武汤等,常加用的潜阳药物有

期刊

儿科阳虚阳浮证重镇药物温潜法

基于社会网络视角的学习导向与企业外部知识获取研究

采用社会网络视角研究了学习导向与企业外部知识获取的关系,并对商业关联与政治关联如何单独和共同影响学习导向与外部知识获取关系进行了分析。采用272家企业双份调研数据(t

期刊

学习导向外部知识获取商业关联政治关联三项交互

英汉同性称谓的对比研究

语言是一种社会现象,会随着社会的变化而发展。同时,语言也是文化的载体,它同样也会受到民族思维方式、民族心理的影响。同性恋作为一种特殊的社会现象,在中西方已广为人知。

期刊

中西方同性恋称谓社会文化认识态度

医疗机器人的信息采集与控制研究

微创外科手术机器人技术,在传统微创手术的基础上,将机器人技术与医疗相结合,促进了外科手术的发展。具有失血少,创伤小,操作精度高,灵活性强,医生操作不易疲劳,且能去除手部

学位

腹腔镜微创外科手术机器人六维力/力矩传感器机器人控制力反馈运动学分析

新闻采编能力提升的方案分析

新闻媒体是党和人民的耳目喉舌,其重要性不言而喻,而记者在其中发挥着重要的积极作用,记者的新闻采编能力是提高新闻质量的关键。但随着社会的不断发展,人们对于精神生活的要

期刊

新闻采编能力提升方案

“景德镇学”研究对陶瓷文化创新发展的价值和意义

景德镇被誉为"千年瓷都",至今不仅仍保留着完整的传统制瓷工艺,而且蕴含着丰富的、典型的中国传统陶瓷文化。"景德镇学"就是在该文化背景下诞生并发展成为一门致力于景德镇陶

期刊

“景德镇学”“陶瓷文化”“创新创意”“景德镇”

基于BIM-Ansys的超高层液压爬模结构安全性分析

为保证液压爬模结构在超高层核心筒结构施工过程中的安全性,提高爬模结构的3D可视化及施工效率,基于BIM中的Revit2015和Ansys14.0软件展开对液压爬模结构在施工和爬升两阶段

期刊

液压爬模核心筒BIM模型转换3D3SAnsys14.0

老年肺内感染的护理

我院于1999年～2004年共收治老年肺内感染的患者73例,均采用抗生素和对症治疗,经过细心的护理和观察,取得了良好效果,现报告如下.

期刊

老年人肺内感染

基于智能体的多机器人系统学习方法研究

与本文相关的学术论文