基于路径引导知识启发的强化学习方法

来源 :四川大学学报:工程科学版 | 被引量 : 0次 | 上传用户:maxwang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时间渐变的算法。以一个路径搜索问题为实例,对PHQL方法进行了验证、分析并与几种
其他文献
采用结果和过程分析并重的思路,本文提出了利用GSM-R接口监测数据分析信号偏移抖动的方法,通过建立电平、质量和异常事件的相关性分析结构,打通了弱相关性到强相关性直至异常
摄影与绘画同属于艺术的范畴,既具有相同的艺术特征,又各具其特殊性。本文从二者的共性特征入手,剖析其异同,以求更好地把握摄影艺术的本质特征。
结合中国食疗保健特点、保健文献和食养学说及中医阴阳平衡整体学说 ,经过现代科技手段加工制成 ,开发传统桑茧丝资源食疗保健应用途径 ,拓展桑茧丝资源在现代食疗营养产品的
结合3GPP IMS协议标准、Mission Critical系列协议标准及云计算、人工智能等技术,提出了铁路智能融合调度通信系统。该系统具有强大的业务承载能力,通过固移融合、宽窄融合克
创新课题,是指在科技领域中人们期待开拓但还投有掌握的新技术,新方法。它是已知和未知的辩证统一体。每位科学技术工作者在从事创新活动时,都要选择的一个课题,然后根据这个课题
针对信号工程设计中电缆统计工作繁琐且容易出错的问题,设计了一套基于AutoLISP的铁路信号电缆统计软件。该软件可以通过电缆径路图快速、准确地统计出信号电缆的数据信息,并
在铺设轨道、公路等工程建设过程中,常有需要填筑以保证路基宽度或高度的情况。当填筑边坡设计坡度不能满足工程需要,且由于地形条件限制不能采用放缓设计边坡的方法时,提出
高职高专商务英语专业在发展过程中要不断探索人才培养模式,建议从知识结构多元化,教学方法案例化,师资队伍专业化,校企合作良性化入手,突出高职高专应用型人才培养特色,最终实现人
教育者,养成人性之事业也。教育对于一个国家经济文化发展的重要性不言而喻。师者,所以传道受业解惑也。教师是一个国家教育事业的核心部分,因此教师教育显得尤为重要。在教