一种在线自适应控制马氏链的强化学习算法

来源 :云南大学学报:自然科学版 | 被引量 : 0次 | 上传用户:xh287315717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
讨论平均准则控制马氏链的强化学习算法。目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略,由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法,通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略。行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略。评判器用来估计这些参数以找出最优控制策略。
其他文献
研究发现,近年来昆明盆地地下热水资源的开发利用进入了一个新的高潮期,地下热水开采量呈逐年增加趋势,但由于缺乏正确认识和科学管理,地下热水的长期无序过量开采,引发了地
讨论了多元加权约束线性回归中最小二乘估计的影响问题 ,定义了度量影响的 3种诊断统计量 ,进一步推广和发展了已有文献的一些结果
利用标准径流小区技术,对牟定县3种人工林群落进行了比较水文生态学研究.研究表明,直干桉-黑荆混交林和云南松人工林群落与无林地对照、直干桉人工林群落相比,具有强的径流调
高分子材料具有质量轻,廉价,易加工等优点,因此近年来发展极为迅猛.正如美国国会技术评价办公室的备忘录指出:先进陶瓷和高分子基质材料将于今后25年内在世界上发挥重大作用[
Canstatin 是最近发现的能抑制新生血管生成和肿瘤生长的又一血管生成抑制因子.从胎盘组织中提取总RNA,根据已知canstatin基因序列,设计特异引物,应用RT-PCR方法扩增出该基因
目的探讨肱三头肌舌瓣成形与经尺骨鹰嘴V形截骨两种入路治疗肱骨髁间骨折的临床疗效。方法 52例肱骨髁间骨折患者分别采用肱三头肌舌瓣成形入路(20例)和经鹰嘴V形截骨入路(32例)
利用广义生产函数模型,研究了主要污染因子在杞麓湖水质恶化过程中的“贡献率”,进而通过弹性系数分析和统计控制模型分析了工程治理的效益,并给出了水污染总量控制。
无量山山顶苔藓矮林是其垂直带上重要的植被类型 ,受到的干扰较少 .从这类森林及相应地段中 85种优势和常见植物的种类结构分析看 ,仍然只有热带亚洲成分 ,东亚中国 -喜马拉
利用广义影响函数和广义Cook统计量来研究具有均匀协方差结构的曲线增长模型的局部影响问题 .得到了不同扰动形式下 ,参数矩阵B及协方差阵∑的极大似然估计的局部影响度量 ,
YLl4是一种首次发现具杀线虫活性的担子菌,12 h内对松材线虫(Bursaphelenchus xylophilus)的致病率达90%以上,是一株有应用前景的线虫生防菌.本试验观察了该菌对线虫的致病过