分层强化学习研究进展

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:arski
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。
其他文献
<正>散叶烘烤技术是随着现代烟草农业的发展不断成熟的烟叶调制新工艺,它配套智能化设备,采用堆积装炕,节约了能源,降低了烟农劳动成本和劳动强度,增加了烟叶香气质、提升了
近年来,从意识形态角度来研究翻译的论文数量猛增,但多是泛泛之谈,导致翻译研究中出现泛意识形态倾向。本文分三个部分,探讨国内翻译研究与意识形态总述及泛意识形态倾向,翻
<正>打开电视屏幕,从中央电视台的《法律讲堂》、上海电视台的《纪录片编辑室》、上海教育电视台的《特别传真》、江西卫视的《传奇故事》、重庆卫视的《拍案说法》等栏目中,
球团矿作为高炉炼铁的主要原料,其冶金性能的好坏对高炉炼铁影响较大,并且对高炉提产降耗发挥着重要作用。一般高炉要求球团矿还原度>60%,而河钢宣钢球团矿还原度在55%~58%,
由于球团矿质量、价格以及高炉高配比球团矿操作过程中的难点,造成很少采用高炉高配比球团矿。本文探讨了湛钢5050m~(3)高炉通过精料管理、合理的上下部调剂、及时调整焦炭负
报纸
今人对于陈兰彬的印象多来源于容闳的《西学东渐记》,但容陈二人的政见矛盾,使得容闳笔下的陈兰彬存在不少不实之处。陈兰彬自身所留的《陈荔秋函稿》表明其虽为科举出身,但
<正>众所周知,产品是由技术支撑的,产品的变化需要技术创新来实现。技术创新表面具有很大的随机性,并且一般是在原有技术基础上进行的,那么技术的发展和创新必然具有某种连续
近年来,随着国家持续严格的环境保护政策,各大钢铁企业面临着限产、提质、降成本的各项压力,与球团工艺相比,烧结工艺对环境的影响更大。为了满足环境保护的要求,需要提高球团比例
报纸
针对综合交通运输管理系统建立相关内容,开展相关分析,提出了系统建设建议。依托信息技术和数据通讯传输技术等,构建综合交通运输管理系统,形成大范围内、全方位发挥作用的信
以常德市桃源县森林资源二类调查数据所构建出森林景观斑块耦合网络为基础,为研究森林景观斑块耦合网络节点关键程度,并为森林景观斑块耦合网络结构熵筛选适合的计算指标,分