基于蒙特卡罗学习的多机器人自组织协作

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:gengjie_1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是提高机器人完成任务效率的有效方法,目前比较流行的学习方法一般采用累积折扣回报方法,但平均值回报在某些方面更适于多机器人协作。累积折扣回报方法在机器人动作层次上可以提高性能,但在多机器人任务层次上却不会得到很好的协作效果,而采用平均回报值的方法,就可以改变这种状态。本文把基于平均值回报的蒙特卡罗学习应用于多机器人合作中,得到很好的学习效果,实际机器人实验结果表明,采用平均值回报的方法优于累积折扣回报方法。
其他文献
通过对平移旋转和伸缩变换下的不变量进行研究,证明了形状的长轴端点和重心是该变换下的不变量,提出了长轴两端点与重心所成的夹角这一几何特征的形状描述子,该形状描述子具有平移旋转和伸缩变换不变性,理论分析和实验结果表明该描述子简单高效,具有较好的形状匹配结果。
基于量子行为的粒子群优化算法(Quantum-behaved Particle Swarm Optimization,QPSO)提出一种新的搜索策略。在新的搜索策略中,粒子的每一维不再是只通过自身的信息进行下一步
众所周知,冠心病已经成为威胁人类健康的头号敌人..自20世纪50年代以来,人群越心病患病率和死亡率不断上升.在发达国家中趋势尤为显著。随着我国人民生活水平的提高,冠心病的发病率
介绍了利用交互式数据语言(Interactive Data Language,IDL)开发TM/ETM遥感影像大气与地形校正模型的详细过程,以2000年4月30日密云ETM影像为例,对大气与地形校正方法的有效性和实用性进行了验证。结果表明,该方法有效地消除了大气与地形影响,提高了地表反射率等地表参数的反演精度和数据质量,为进一步开展定量遥感研究提供了数据质量保障。
寻找相对于平移、尺度、旋转、扭曲不变的仿射不变量是现今多尺度分析在模式识别中应用的关键性问题。以文献[4]定义的仿射不变量为基础,构造了基于平稳小波变换的仿射不变量。通过分析,指出原文中所给绝对仿射不变量存在的缺陷,定义了一种新的绝对仿射不变量。试验结果和分析表明,构造的仿射不变量可以更好地用于目标物体识别。
在Ad hoc网络中,由于节点的移动性及拓扑结构的易变性,路由成为最受关注的问题。提出了一种局部最优路由策略(LOR)。在该策略中,有两个节点需要通信时,根据节点存储的路由信息