基于路径匹配的在线分层强化学习方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:pf2858888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在线找到正确的子目标是基于option的分层强化学习的关键问题.通过分析学习主体在子目标处的动作,发现了子目标的有效动作受限的特性,进而将寻找子目标的问题转化为寻找路径中最匹配的动作受限状态.针对网格学习环境,提出了单向值方法表示子目标的有效动作受限特性和基于此方法的option自动发现算法.实验表明,基于单向值方法产生的option能够显著加快Q学习算法,也进一步分析了option产生的时机和大小对Q学习算法性能的影响.
其他文献
Web服务作为一种新型的Web应用模式近年来得到了迅速的发展.如何高效动态地把现存的各种Web服务整合起来以形成新的满足不同用户需求的增值的复杂服务,已成为新的应用需求和
杨细蛾别名白泡潜叶蛾,属鳞翅目细蛾科。主要危害杨树,在新疆的南北疆都有不同程度的发生。福海县自2002年全面实施退耕还林以及三北四期、绿色通道等项目工程以来,平原地区杨树
通过对游戏软件特有的测试模式分析,进行游戏软件测试工作量估计.以美国软件生产力研究所(Software Productivity Research)的一般软件测试估计的数据为基础,以网络游戏为例,
婺源人江永为戴震老师,对戴氏思想和学风产生了深远影响。其《诗经补义》考《采》认为乃女子教成之祭所歌;考“平王之孙,齐侯之子”指出以“平”为“正”之错;考《墓门》“讯
护林巡护工作,就是管护工作者在林区内观察有无森林火情发生,有无乱捕乱猎、乱砍滥伐、毁林开垦、乱占林地等违法行为的发生并及时上报,它是管护工作中最基础、最基本的业务