【摘 要】
:
在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术.许多RL的理论及实际应用均集中于其学习环境可被描述
论文部分内容阅读
在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术.许多RL的理论及实际应用均集中于其学习环境可被描述为一马氏决策过程(MDP)的情形.然而,在一些实际问题中,环境却是非马氏的,即对学习单元而言,它所能获得的环境状态的信息是不完全的.本文给出了一种新的算法:R(λ)学习,以求解这类非马氏环境的决策问题.环境本身是马氏的,但是学习单元却不能感知全部的状态信息,此时我们也称其为部分可观测马氏决策过程(POMDP).
其他文献
过去50年,大部分经典的时装形象都出自于伊夫·圣·洛朗(Yves Saint Laurent)之手,是他开创了成衣界的时装潮流,成为全球成衣设计的先驱.
性感是一种魅力,是现代女性追求和憧憬的一种美.富有性感魅力的女性天生丽质很重要,但在很大程度上与知识修养有关,它有性学、美学、文化教养、民俗、伦理学观念的参与,所以
人脑的重要特点之一就是能对模糊事物进行识别和判断.因此,将模糊数学方法引入模式识别,用模糊技术来设计机器识别系统,可以更广泛、更深入地模拟人脑的识别过程,从而提高系
用地理系信息系统(GIS)技术,对贵阳市建筑边坡资料进行收集,对其稳定性进行了评价和预测.概括地介绍了评价、预测方法的选择,技术路线的特点和施实的步骤.重点介绍了GIS系统
本文提出了一种基于知识的供应链决策框架,并且从理论和实践的角度详细探讨了知识积累和知识挖掘过程,充分利用知识优势,以期通过知识与推理机制的集成和人类智慧与枯燥数据
正红色+暗红色 充满实在感的暗红色连衣裙,胸前的花朵和孩童图案使女人更显柔美。 深红色+红色 红色系总给人以暖暖的感觉,花朵图案使人犹如进入了花团锦簇的季节。 浅色+红色 红色与同系色的图案相配,给人十分轻快的感觉。 桃红色+黑色 色彩艳丽的桃红色非常惑眼,领部交叉设计高贵、舒适。黑色腰带设计新颖,将人的视线下移,有点睛之妙。 桃红色+黑色 单纯的桃红色与黑色似乎太跳了,绣黑色亮
"经济越发展,会计越重要"(马克思,《资本论》第三卷).计算机的问世及其在会计中的应用已经显示了信息处理技术对会计的巨大影响.然而,目前的会计电算化决策支持系统还主要停
本文介绍了Modbus plus总线,详细说明了Modbus plus网络在啤酒灌装生产线控制系统改造中的应用。
This article describes the Modbus plus bus, a detailed description of
十年前,歌手红豆的名字家喻户晓,中央电视台的导演们至今提起他都会笑着说:“那会儿搞晚会最费心思的就是豆儿的节目,因为一上台,镜头中就找不着满台蹦跳的红豆了.”作为最小