基于对等SAP 的Q学习在机器人作业分配中的应用

来源 :第26届中国控制会议 | 被引量 : 0次 | 上传用户：scxs866

【摘要】

：

本文讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对(State-Action Pair)概念,设计了一种改进的Q学

【作者】

：

丁丽洁唐昊周雷

【机构】

：

合肥工业大学计算机与信息学院,合肥230009

【出处】

：

第26届中国控制会议

【发表日期】

：

2007年期

【关键词】

：

学习效率机器人作业分配学习算法状态空间搬运系统分配问题存储空间指数设计概念标准保存

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对(State-Action Pair)概念,设计了一种改进的Q学习算法。在该算法中,每次采取一个行动后,更新相应的所有对等SAP的Q 值,且只需保存其中一个SAP的Q 值。与标准Q 学习相比,该算法能够节省存储空间,提高系统的学习效率。

其他文献

巨型水压机液压位置保持系统迭代控制的仿真研究

本文以3万吨模锻水压机动梁位置保持系统为例,针对模段水压机加工过程的重复性、初始加工精度要求较严、批次加工数量不大的特点。提出了采用PD控制器构造迭代控制的初始控制

会议

不确定条件下设备维护与更新最优控制策略的一个极限性质

本文证明了不确定条件下设备维护与更新最优控制策略的一个极限性质,即:当每个阶段的时间长度趋于无限小时,此问题的最优控制量不可微.这说明,无论设备更新多敏捷,D-F 问题的

会议

不确定条件设备维护控制策略控制量设备更新极限性质证明敏捷长度

需求不确定闭环供应链鲁棒运作策略设计

本文建立了顾客需求不确定环境下一类同时具有再分销、再制造和再利用的闭环供应链动态运作的鲁棒优化模型。供应链由一个制造商和一个供应商构成,废旧产品的回收及对废旧产

会议

基于集成预测模型与专家推理策略的铅锌烧结配料优化方法

本文针对传统铅锌烧结配料方法成本高和准确率低的问题,提出基于烧结块成分集成预测模型与专家推理策略的烧结配料优化综合集成方法。首先,在建立专家经验机理模型和神经网络

会议

基于蚁群算法的证券组合投资模型研究

本文基于Markowitz资产组合理论,综合考虑证券投资的风险与收益,建立了证券组合投资的多目标规划模型,并用蚁群算法研究了模型的求解,得出了比用Lingo模型求解更好的结果。

会议

蚁群算法多目标规划模型资产组合理论证券组合投资风险与收益证券投资算法研究求解

基于分布式混合优化策略的有限装卸力下取送车作业优化

本文综合考虑工矿企业铁路货运站装卸队作业计划和调车取送作业计划,建立以调车机车总耗时最小为优化目标的数学模型,并提出求解该模型的分布式混合优化策略。该策略根据装卸

会议

基于鲁棒离散优化建模方法的电梯群控调度策略

本文在对电梯群控调度关键问题的分析基础上提出了基于鲁棒离散优化方法的电梯群控调度策略。阐述了鲁棒离散优化建模和模型转化理论,并建立起电梯群控调度问题的鲁棒离散优

会议

基于单纯形法液压同步控制参数的最优化

本文在分析动梁受力模型的基础上,采用收敛速度较快的单纯形法,对水压机液压同步控制系统的死区值、回程系数与补偿流量三个参数进行寻优。Simulink 仿真结果表明,在保持系统

会议

单纯形法液压同步控制参数同步控制系统响应速度系统稳定受力模型收敛速度合理选择仿真结果水压机动精度寻优系数流量基础回程补偿

一类不确定Markov跳变时滞系统的鲁棒输出跟踪控制

本文讨论了一类具有模态转移率不确定性的Markov跳变时滞系统的鲁棒输出跟踪控制问题。利用松弛权矩阵方法,提出保证系统随机稳定且满足给定H∞跟踪性能的充分条件。该条件和

会议

部队戏剧花朵頌歌

这次全軍文艺会演,集中地展覽了全軍文艺工作的花朵,也給予我們整个文艺界、戏剧界以很大的鼓舞和启发。以前部队文艺会演以歌舞为主,今年会演主要是戏剧,包括話剧、歌剧、

期刊

南海战歌文艺会演安业民东进序曲歌行文艺工作剧作家陈秉光刘大凯歌

基于对等SAP 的Q学习在机器人作业分配中的应用

与本文相关的学术论文