【摘 要】
:
现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现.然而,众所周知,当与环境的交互时间有限的情况下,无模型方法
论文部分内容阅读
现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现.然而,众所周知,当与环境的交互时间有限的情况下,无模型方法的表现并不佳,就像大多数现实世界中的机器人任务一样.在本文中,我们研究了如何使用soft Q-learning训练的最大熵策略应用于现实世界中的机器人操纵任务.这种方法之所以能够在现实世界中应用,主要得益于soft Q-learning的两个重要特征:首先,soft Q-learning可以通过学习具有表达性的基于能量的模型(energy-based models)所表示的策略,从而学习多模式探索策略.
其他文献
,共有八个部分,其中七个部分是讲农业基础建设和农村基础工作.主要政策措施,可以概括为“五个三”.
近来国内外对膳食纤维研究逐渐深入,被誉为人类第七营养素,日益引起人们的重视。本文综述膳 食纤维的研究历史,定义和分类、功效、以及花粉中膳食纤维研究现状和展望利用前景
随着我国加入WTO,农业发展面临全球经济一体化的挑战和机遇,根据新形势发展的要求,为推动传统农技推广模式的改进和创新,在农业部和河北省农业厅的支持下,迁安市农业技术推广
水门传说rn明清时期,宫城内饮用水都是从玉泉山运过来的.清朝的乾隆皇帝对比了天下各处著名泉水,认为北京玉泉山的泉水杂质最少,评定为天下第一泉,此后每天都用马车运水进宫
Novel 3D biogenic C-doped Bi2MoO6/In2O3-ZnO Z-scheme heterojunctions were synthesized for the first time,using cotton fiber as template.The as-prepared samples
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
2月14日下午,省委召开充分发挥基层党组织和党员作用做好抗击冰雪灾害工作经验交流座谈会,总结交流各地重视发挥基层党组织和党员作用、做好抗击冰雪灾害工作的情况和经验,进
在福建中部有一条美丽的木兰溪,清清的溪水流经莆田城南约5 km的木兰山下时,被一座古陂拦腰截断.它就是全国重点文物保护单位、我国古代著名的御咸蓄淡灌溉工程--木兰陂.
随着城市化进程的不断发展与土地资源的紧缺的不断加剧,现代高层建筑已经成为最新趋势,高层建筑也是一把双刃剑,虽然高层建筑可解决土地资源稀缺的问题,但是高层建筑尤其是超
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥