分布式强化学习系统的体系结构研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:asdf_1900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、社会强化学习四类,然后探讨了这四类分布式强化学习方法的体系结构框架,并给出了这四类分布式强化学习方法的形式化定义。
其他文献
摘 要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集。文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分类算法。算法首先通过一对多二元分解将多标签图数据分解成多个单标签图数据。然后对分解后的图数据,运用半监督SVM进行分类。通过实验证明,该方法在已标注图数据较少情况下具有较高的分类精度。  关键词:图数据;多标签;半监督;自训练
结合工程实际,介绍大直径管桩施工过程中监理质量控制要点,规范确定质量控制标准,施工过程中常见的异常情况及原因分析等。
以京沪高速铁路土建工程四标段路基施工为依托,结合工程应用情况,介绍了路基填料选择、生产要求、填料粒径、颗粒级配和含水量控制等方面采取的一系列措施,以及取得的良好效果,为
为了有效利用元数据来增强电子政务办公系统的可操作性、可移植性、可扩展性、可维护性和数据一致性,文章首先论述了元数据的定义及其在电子政务办公系统中的一般作用,然后基于
摘 要 该文提出了一种新的概率分析方法来研究在给定结点错误概率的情况下超立方体网络强容错路由算法的容错性的概率:针对文中提出的基于新的局部连通性网络容错模型的高效的强容错路由算法[1],该文首次严格证明了一个具有1024个结点的10维超立方体网络能够容许多达4.7%的错误结点而具有99%的概率确保找到正确结点组成的路径,而如果结点的错误概率不超过0.1%,则所有实际规模的超立方体网络能够具有9
论文分析了软件测试管理的必要性和有效组织结构,阐述了基于WWW的B/S结构的网络应用模型,并提出了基于B/S结构的软件测试管理的网络解决方案。
随着近几年资本市场对餐饮行业的高度关注,餐饮新消费逐渐成为行业的投资热点。以盒马鲜生、超级物质为代表的新零售,凸显的正是餐饮的新消费体验;以海底捞、西贝为代表的正
高边坡病害治理工程设计与施工的基本思路是限制或控制高边坡的变形,防止大变形的出现。如何根据高边坡病害的性质和类型,在病害治理工程中贯彻限制或控制高边坡变形的设计思