基于蒙特卡罗学习的多机器人自组织协作

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：gengjie_1986

【摘要】

：

强化学习是提高机器人完成任务效率的有效方法，目前比较流行的学习方法一般采用累积折扣回报方法，但平均值回报在某些方面更适于多机器人协作。累积折扣回报方法在机器人动作层

【作者】

：

周彤洪炳镕朴松昊周洪玉

【机构】

：

哈尔滨工业大学计算机科学与技术学院,哈尔滨理工大学机械动力学院

【出处】

：

计算机工程与应用

【发表日期】

：

2007年30期

【关键词】

：

强化学习多机器人协作蒙特卡罗学习 Q学习 reinforcement learning multi-robot coordination Mon

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是提高机器人完成任务效率的有效方法，目前比较流行的学习方法一般采用累积折扣回报方法，但平均值回报在某些方面更适于多机器人协作。累积折扣回报方法在机器人动作层次上可以提高性能，但在多机器人任务层次上却不会得到很好的协作效果，而采用平均回报值的方法，就可以改变这种状态。本文把基于平均值回报的蒙特卡罗学习应用于多机器人合作中，得到很好的学习效果，实际机器人实验结果表明，采用平均值回报的方法优于累积折扣回报方法。

其他文献

一种新的几何特征形状描述子

通过对平移旋转和伸缩变换下的不变量进行研究,证明了形状的长轴端点和重心是该变换下的不变量,提出了长轴两端点与重心所成的夹角这一几何特征的形状描述子,该形状描述子具有平移旋转和伸缩变换不变性,理论分析和实验结果表明该描述子简单高效,具有较好的形状匹配结果。

期刊

模式识别形状描述子形状匹配不变量pattern recognitionshape descriptorshape matchinginvarian

基于QPSO的改进算法

基于量子行为的粒子群优化算法（Quantum-behaved Particle Swarm Optimization,QPSO）提出一种新的搜索策略。在新的搜索策略中,粒子的每一维不再是只通过自身的信息进行下一步

期刊

量子行为的粒子群优化算法搜索策略早熟计算Quantum-behaved PSO searching strategy premature c

中年人，警惕突发性胸痛！

众所周知，冠心病已经成为威胁人类健康的头号敌人．．自20世纪50年代以来，人群越心病患病率和死亡率不断上升．在发达国家中趋势尤为显著。随着我国人民生活水平的提高，冠心病的发病率

期刊

中年人心血管疾病呼吸道疾病20世纪人类健康发达国家突发性胸痛

肥胖有害健康

期刊

肥胖健康饮食体重指数运动

失眠的一般对策

期刊

失眠睡眠周期改变睡眠障碍食物疗法牛奶莴笋

源于“非典”的话

期刊

严重急性呼吸道综合征SARS传染性非典型肺炎预防心理应激

基于IDL的遥感影像大气与地形校正方法实现

介绍了利用交互式数据语言(Interactive Data Language,IDL)开发TM/ETM遥感影像大气与地形校正模型的详细过程,以2000年4月30日密云ETM影像为例,对大气与地形校正方法的有效性和实用性进行了验证。结果表明,该方法有效地消除了大气与地形影响,提高了地表反射率等地表参数的反演精度和数据质量,为进一步开展定量遥感研究提供了数据质量保障。

期刊

大气校正地形校正TM/ETM遥感影像反射率交互式数据语言atmospheric correction topographic correction

平稳小波变换在仿射不变性目标识别中的应用

寻找相对于平移、尺度、旋转、扭曲不变的仿射不变量是现今多尺度分析在模式识别中应用的关键性问题。以文献[4]定义的仿射不变量为基础,构造了基于平稳小波变换的仿射不变量。通过分析,指出原文中所给绝对仿射不变量存在的缺陷,定义了一种新的绝对仿射不变量。试验结果和分析表明,构造的仿射不变量可以更好地用于目标物体识别。

期刊

平稳小波变换仿射变换仿射不变量stationary wavelet transform affine transformation affine in

无声杀手——高血压病

期刊

高血压病病因药物治疗预防非药物治疗精神放松疗法

Ad hoc网络的局部最优路由选择策略

在Ad hoc网络中,由于节点的移动性及拓扑结构的易变性,路由成为最受关注的问题。提出了一种局部最优路由策略（LOR）。在该策略中,有两个节点需要通信时,根据节点存储的路由信息

期刊

ADHOC网公共邻居节点局部最优开销Ad hocpublic-neighborlocal optimumcost

基于蒙特卡罗学习的多机器人自组织协作

与本文相关的学术论文