【摘 要】
:
<正>深度强化学习(Deep Reinforcement Learning)一直是近年来人工智能的一些重大突破的核心。尽管深度强化学习取得了很多进展,但由于缺乏工具和库,深度强化学习方法在主流
论文部分内容阅读
<正>深度强化学习(Deep Reinforcement Learning)一直是近年来人工智能的一些重大突破的核心。尽管深度强化学习取得了很多进展,但由于缺乏工具和库,深度强化学习方法在主流解决方案中仍然难以应用。因此,深度强化学习主要以研究形式存在,并未在现实世界的机器学习解决方案中得到大量应用。解决这个问题需要更好的工具和框架。而在当前的人工智能领域,DeepMind在推动深度强化学习研发方面做了大量工作,包括构建了许多专有工具和框架,以大规模地简化深度强化学习智能体训练、实验和管理。最近,DeepMind发布了一系列新的开源技术,包括三种深度强化学习框架:OpenSpiel、SpriteWorld和Bsuite,这些技术将有助于简化深度强化学习方法的应用。OpenSpiel是一系列环境和算法的集合,用于研究一般强化学习和游戏中的搜索/规划。目的是在许多不同的游戏类型中促进通用多智能体的强化学习,其方式与通用游戏类似,但重点是强调学习而不是竞争形式。OpenSpiel基于C++和Python,便于在不同的深度学习框架中采用。GitHub地址为:https://github.com/deepmind/open_spiel。SpriteWorld是一个基于Python的强化学习环境,由一个可以自由移动的形状简单的二维竞技场组成。SpriteWorld为每
其他文献
<正> 甲拌磷拌种防治麦蚜、灰飞虱、地下害虫等效果比较好,但用于防治小麦粒线虫病的报导尚未见到。目前的资料介绍,小麦粒线虫病的防治药剂仍以白砒为主,而该药国家已停产,
采用改性聚丙烯腈(PAN)螯合纤维处理电镀废水,试验结果表明:其对废水中有机物和金属离子的去除是化学吸附的过程;改性PAN纤维对废水中TOC和TN的去除率分别为69.4%和86.4%;对C
“被”字句是现代汉语的基本句式之一,被认为是最典型的被动句式,广泛应用于口语和书面语之中。学界对“被”字句各个方面的研究,不论语言本体角度的研究还是对外汉语教学角度的
对北京市已投产的分散式污水再生利用设施的建设、运行及管理现状进行了调研分析。调研对象包括商业楼宇、高等院校、居住小区。结合工程实例分析了分散式污水再生利用设施在
目的通过观察桃红四物汤(Taohong Siwu decoction,TSD)对产后病血瘀证模型大鼠的治疗效果、对促凝血与纤溶系统以及Rho/Rocks通路上相关指标的影响,探讨TSD活血化瘀、养血调经的作
1大庆外围油田转油站原油集输流程大庆外围油田区块分散,远离老区已建设施,油品性质除具有"三高"外,还具有产量低,油气比低的特点,新区块距已建区块距离一般在5km以上,远的可
随着工业化的发展脚步逐渐加快,在工业生产过程中产生了大量的污水,对我国的环境造成了严重的危害。为了解决这一问题,就必须合理利用这些水资源,对其进行回用处理措施,就可
近年来,旅游产业收入占国民经济收入的比例不断增加,成为国家重点建设发展的产业之一。国内各景区旅游产业发展的状况各不相同,产业竞争激烈,提出针对性的策略是促进旅游产业
介绍了微电解/UASB/接触氧化法处理高浓度日用化工废水的工程设计、调试及运行情况,经处理后出水各项指标优于广东省《水污染物排放限值》(DB 44/26—2001)的一级标准(第二时
极限理论是高等数学中的基础理论,它是研究高等数学的主要方法之一。掌握了极限的求法就为学好高等数学打下了扎实的基础。下面就极限的求法做一些探讨和归纳,并通过例子加以