基于个体-协同触发强化学习的多机器人行为决策方法

来源 :仪器仪表学报 | 被引量 : 0次 | 上传用户:nx002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高多机器人行为最优决策控制中强化学习的效率和收敛速度,研究了多机器人的分布式马尔科夫建模与控制策略.根据机器人有限感知能力设计了个体-协同感知触发函数,机器人个体从环境观测结果计算个体-协同触发响应概率,定义一次触发过程后开始计算联合策略,减少机器人间通讯量和计算资源.引入双学习率改进Q学习算法,并将该算法应用于机器人行为决策.仿真实验结果表明,当机器人群组数量在20左右时,本文算法的协同效率较高,单位时步比为1.085 0.同时距离调节参数η对机器人协同搜索效率有影响,当η=0.008时,所需的移动时步比和平均移动距离都能达到最小值.通过双学习率的引入,该算法较基于环境模型的强化学习算法具有更高的学习效率和适用性,平均性能提升35%,对于提高多机器人自主协同能力具有较高的理论意义及应用价值.
其他文献
针对传统舰船检测方法通常存在漏检弱小舰船和虚警方位向模糊等问题,提出了一种基于散射梯度矢量的极化合成孔径雷达(PolSAR)数据舰船检测方法.首先,在PolSAR数据的散射矢量
小型关节作为机器人姿态控制的核心部件,对机器人的性能有直接影响。回差是表征小型关节传动精度的关键指标,其测量和评价是提高小型关节性能的基础。迄今对小型关节回差的测量主要基于其主要组件减速器进行,而对小型关节的整体回差研究几乎为空白。为探究小型关节整体回差的产生机理及其基本规律,依托所研发的测试机对小型关节的整体回差进行了实验研究,在对小型关节的结构组成、整体回差的组成和测量模型分析的基础上对A、B
人们常说:一年之际,在于树谷;十年之际,在于树木;百年之际,在于树人.我们党和国家历来重视对大学生思想品德的培养,以造就德智体美等各个方面协调发展的优秀人才.rn
触觉信息是机器人感知工作环境的重要途径之一,也是人机协作中保证安全性和舒适性的关键因素。然而,相对于视觉、听觉、嗅觉传感器的发展,机器人触觉传感器的应用和产业化仍相对滞后。提出了一种基于双电层电容原理的机器人柔性触觉传感器,该压力传感器具有结构简单、灵敏度高、测量范围大、高柔性、高信噪比、制备和使用成本较低等优点。传感器由上下两层电极以及中间离子凝胶的纤维层组成,当外界压力作用在传感器上时,离子纤
公司治理中的国家干预是指,为适应国家政治、经济、文化发展的需要,国家以公司法的形式选择国家统治、公司自治或国家统治与公司自治相结合的公司治理方式,并对实现所选公司治理
为了判别TBR左右斗平衡,提出了差值判别法和差值率判别法.差值判别法以左右斗平均每斗水量的差值为判别指标,并记α为差值限;差值率判别法以左右斗差值的绝对值与左右斗测量
由于机构投资者在全球范围内的崛起和不同制度之间的渗透融合,各国不少研究者把注意力聚焦到机构投资者与公司治理相关性的研究上。机构投资者参与公司治理的研究是伴随着中国
全美公司董事联合会(NACD)蓝带委员会将公司治理的目标定义如下:公司治理要确保公司的长期战略目标和计划的确立,以及为实现这些目标而建立适当的管理结构(组织、系统、人员),同
会议
1993年《公司法》基于我国社会没有建立稳定、长久的商事传统和商业文明的现实,加之国家整体的经济体制改革是在政府主导推进的模式中发展的情况,公司立法中体现了过多的强制性
会议
美国公司的特征是集中管理,亦即“董事会中心主义”。在公司治理结构中,董事是公司的信托人,对公司负有信托责任,包括注意责任和忠诚责任。如果违反信托责任,就有可能承担个人责任
会议