基于对等SAP 的Q学习在机器人作业分配中的应用

来源 :第26届中国控制会议 | 被引量 : 0次 | 上传用户:scxs866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对(State-Action Pair)概念,设计了一种改进的Q学习算法。在该算法中,每次采取一个行动后,更新相应的所有对等SAP的Q 值,且只需保存其中一个SAP的Q 值。与标准Q 学习相比,该算法能够节省存储空间,提高系统的学习效率。
其他文献
本文以3万吨模锻水压机动梁位置保持系统为例,针对模段水压机加工过程的重复性、初始加工精度要求较严、批次加工数量不大的特点。提出了采用PD控制器构造迭代控制的初始控制
会议
本文证明了不确定条件下设备维护与更新最优控制策略的一个极限性质,即:当每个阶段的时间长度趋于无限小时,此问题的最优控制量不可微.这说明,无论设备更新多敏捷,D-F 问题的
本文建立了顾客需求不确定环境下一类同时具有再分销、再制造和再利用的闭环供应链动态运作的鲁棒优化模型。供应链由一个制造商和一个供应商构成,废旧产品的回收及对废旧产
会议
本文针对传统铅锌烧结配料方法成本高和准确率低的问题,提出基于烧结块成分集成预测模型与专家推理策略的烧结配料优化综合集成方法。首先,在建立专家经验机理模型和神经网络
会议
本文基于Markowitz资产组合理论,综合考虑证券投资的风险与收益,建立了证券组合投资的多目标规划模型,并用蚁群算法研究了模型的求解,得出了比用Lingo模型求解更好的结果。
本文综合考虑工矿企业铁路货运站装卸队作业计划和调车取送作业计划,建立以调车机车总耗时最小为优化目标的数学模型,并提出求解该模型的分布式混合优化策略。该策略根据装卸
会议
本文在对电梯群控调度关键问题的分析基础上提出了基于鲁棒离散优化方法的电梯群控调度策略。阐述了鲁棒离散优化建模和模型转化理论,并建立起电梯群控调度问题的鲁棒离散优
会议
本文在分析动梁受力模型的基础上,采用收敛速度较快的单纯形法,对水压机液压同步控制系统的死区值、回程系数与补偿流量三个参数进行寻优。Simulink 仿真结果表明,在保持系统
本文讨论了一类具有模态转移率不确定性的Markov跳变时滞系统的鲁棒输出跟踪控制问题。利用松弛权矩阵方法,提出保证系统随机稳定且满足给定H∞跟踪性能的充分条件。该条件和
会议
这次全軍文艺会演,集中地展覽了全軍文艺工作的花朵,也給予我們整个文艺界、戏剧界以很大的鼓舞和启发。以前部队文艺会演以歌舞为主,今年会演主要是戏剧,包括話剧、歌剧、