基于并行强化学习的云机器人任务调度策略

来源 :计算机应用 | 被引量 : 0次 | 上传用户:wywinnie1105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决机器人完成大规模状态空间强化学习任务时收敛慢的问题,提出一种基于优先级的并行强化学习任务调度策略。首先,证明Q学习在异步并行计算模式下的收敛性;然后,将复杂问题根据状态空间进行分割,调度中心根据所提策略将子问题和计算节点匹配,各计算节点完成子问题的强化学习任务并向调度中心反馈结果,实现在计算机集群中的并行强化学习;最后,以CloudSim为软件基础搭建实验环境,求解最优步长、折扣率和子问题规模等参数,并通过对实际问题求解证明在不同计算节点数的情况下所提策略的性能。在使用64个计算节点的情况下所提策
其他文献
摘 要:独立学院财会教学中许多问题和不完善之处,影响了财会教学质量的提高。这不利于独立学院的可持续发展,更不可能为社会培养出真正有用的财会人才。所以有必要进行教学改革,重视实践育人。從独立学院的性质和特点出发,通过对财会教学的现状分析,详细指出存在的主要问题和不足,并提出具体的解决措施和办法。  关键词:独立学院;财会教学;改革  中图分类号:G642.0 文献标志码:A 文章编号:1673-29
联合应用胶原酶消化、贴壁筛选及单克隆培养法从人脂肪组织中分离、培养人脂肪干细胞(hADSCs),观察hADSCs的形态学特征。通过流式细胞术检测hADSCs表面抗原;通过细胞化学染色
目的探讨脑膜瘤继发癫痫患者术后癫痫发作控制效果的影响因素。方法回顾性分析2013年1月~2018年6月于唐都医院神经外科行脑膜瘤手术的29例患者的临床资料,根据治疗后Engel分
随着无线网络技术的不断发展和人民生活水平的提高,万物互联的概念走入了人们的生活,人们希望随时随地可以掌控自己生活中方方面面的信息并及时处理,希望可以实时的得到一些
目的建立线性回归模型,预测2012年和2013年门诊就诊人数。方法采用最小二乘法建立线性模型,并预测近2年门诊人数。结果通过分析得2001-2011年门诊人次回归模型,线性关系显著(P〈O
物业管理作为一种专业化、社会化、企业化的不动产管理模式,在中国已走过了三十年的历程。但保障性住房物业管理存在物业管理相对滞后,制度不够完善,政策措施还不配套。针对这种
目的调查并分析杭州滨江区学龄前儿童患龋率与家庭背景因素的相关性。方法采用随机抽样的方法,选择滨江区5个幼儿园共201名儿童进行龋病情况检查,通过实地和问卷调查,获得样
警犬的世界有多少故事?人类对狗的世界到底能了解多少?看了警犬拉拉和维奇的故事,你也许会发现,作为人类的朋友,狗的世界同样是情感丰富的世界,也同样充满了喜怒哀乐!
[目的]了解中医院校护理本科生对客观结构化临床考试(OSCE)的评价。[方法]随机选择70名学生参加有6个考站组成的OSCE考核,对其成绩及有关OSCE考试的设计与组织、质量和效能进行
目的:研究双相广谱抗癌新药康莱特注射液缓解癌痛及提高晚期癌症患者生存质量的作用。方法:本课题采用多中心协作,汇集我国14家肿瘤医院376例晚期癌症患者临床治疗资料,其中伴有癌症疼