分层强化学习中的Option自动生成算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:alyue_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算法,该算法以Agent在学习初始阶段探测到的状态空间为输入.采用人工免疫网络技术对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法的有效性。
其他文献
目的:探讨经外周穿刺中心静脉置管(PICC)结合奥伦自理模式在胃肠癌行5-氟尿嘧啶(5-FU)泵化疗患者中的应用效果。方法:选取2019年1月1日~8月31日行5-FU泵化疗的46例胃肠癌患者
提出了一种新的图像模糊测度方法,该方法以图像小波分解的低频系数各个方向上的信息梯度和作为图像的模糊测度,理论与实验证明该测度相对于图像的模糊程度是单调和单峰的,并且受噪声、亮度和对比度变化影响较小。
2月4日。学院召开离退休干部职工新春茶话会,院长赵建国、党组书记钱平、纪检组长、工会主席马放瑞、副院长李勤道出席茶话会。有关部门负责人参加了会议。座谈会由钱平主持,学
目的探讨超声引导下射频消融术治疗肝癌的资料,评价其术后局部复发的影响因素,为临床应用提供参考依据。方法回顾性分析2010年7月—2012年7月我院进行超声引导下射频消融治疗
通过对运行变压器温升极限要求的分析,同时研究变压器在运行过程中的功率损耗及冷却装置功率投入。根据变压器绕组直流电阻的温度特性,分析计算冷却装置功率投入与变压器功率损
以云南玉溪东风水库心墙料的室内动力特性试验为背景,研究了该种土在10^-6~10^-2应变水平范围内的动模量阻尼比与动应变、固结围压及固结比的关系,讨论了初始动模量原本物理意义
所谓柔性管理,是一种创新的管理策略,将“学生为本”放在首位,重视让学生在和谐的氛围中实现学习和发展。在初中阶段,学生正处于叛逆期,如果班主任采用过于严厉的管理方法,不
采用塑料排水板堆载预压法进行软土路基处理,在预压过程中对路基变形及孔隙水压力进行了严密观测。结果表明,该法能有效地加快软基的固结沉降,提高地基土的稳定性和承载力。在观
美国对五四运动的发生、发展和演变产生了重大影响。巴黎和会召开之前,中国政府在美国的鼓励下确立了“联美制日”的方针,调整了巴黎和会的外交目标。和会期间,美国在山东问
摘要:教师通过生活化的数学去激发学生学习数学的兴趣并使他们认识到数学能解决实际生活生产中的问题。而案例教学法是指教师根据课堂教学目标和教学内容的需要,根据教材创设出与教学内容相适应的具体案例,引导学生参与分析、讨论、表达等活动,让学生在具体的问题情境中积极思考、主动探索,以提高学生思考问题、分析问题和解决问题等综合能力的一种教学方法。教师使用的案例,必须具备故事性或趣味性、直观性、易于理解并包含挑