【摘 要】
:
现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算
【机 构】
:
浙江大学控制科学与工程学系,浙江大学航空航天学院
论文部分内容阅读
现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望动态性能的输出反馈控制策略.算法构造了以参考模型为基础的回报函数,可以有效地描述系统的期望闭环动态性能;采用以PID输出反馈控制律为基础的参数化随机控制策略,以便于利用先验知识、依据控制领域常用的PID参数经验整定方法确定较好的初始策略,以缩短学习时间;并使用具有良好学习性能的eNAC算法
其他文献
<正>目的:探讨对慢性心力衰竭患者进行社区个性化管理在延缓慢性心力衰竭进程、降低1年内再入院率、改善心功能方面的效果,并使患者掌握心力衰竭的相关知识,进行自我管理。方
目前我国正处于由传统社会向现代社会的急剧转型之中。在这个社会转型的加速期,人们一方面为改革开放以来社会发展的斐然成绩而欢欣鼓舞,另一方面又为日渐凸显的众多社会问题而
中国、德国和英国科学家合作完成的德国产志贺毒素大肠杆菌O104∶H4国际合作研究成果,7月28日在线发表在国际著名杂志《新英格兰医学》上。军事医学科学院微生物流行病研究所
非受体酪氨酸激酶c-abl基因位于人的9号染色体上,是Abelson鼠白血病病毒v-abl原癌基因在哺乳动物细胞内的同源基因,其编码的蛋白c-Abl通过与多种底物相互作用,在细胞增殖与分
基于铜在电炉渣中的损失形态,通过分析影响渣含铜的主要因素,提出了降低横膈膜厚度、控制渣层厚度、优化放渣方式及洗炉方式等控制沉降电炉渣含铜的措施。措施实施后,有效地
CAR-T是一种细胞免疫治疗方法,在体外对来自患者的T细胞进行改造,使其表达能够特异识别肿瘤细胞表面靶点的受体——嵌合抗原受体(CAR),然后再回输到患者体内发挥抗肿瘤作用。
司法实践中,由于行政诉讼法规则不规范,导致司法机关对其他规范性文件的受案处理比较混乱,影响了法律的权威和公正,带来了一系列的负面影响。解决这些问题,必须尽快对《行政
音乐具有巨大的教育作用,但在音乐中寻找不到道德说教。音乐的主要力量在于情感教育。——克列姆辽夫谁在痛苦激动的情绪下欣赏或演奏音乐,那音乐会像创伤里加上醋一样地影
所谓肠出血性大肠杆菌0104:H4(enterohem.orrhagicE.coli,0104:H4),是由德国分离的一种新菌珠0104:H4型大肠杆菌,含有志贺毒素2(vtx2a)的基因,没有(enterohemorrhagicEscherichiacoli,EHEC)溶
最近,不少消费者向南京一家媒体记者反映,他们拿着现金去消费,却遇到了 “差别对待”,尤其是不少老年人,几乎被“数字”“抛弃”,却“有苦难言”。“是不是老人家就只能被数