基于优先级扫描Dyna结构的贝叶斯Q学习方法

来源 :通信学报 | 被引量 : 10次 | 上传用户:eyoujin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精
其他文献
Rolly玩具公司位于德国库堡新城。他们一向专注于儿童玩具车的制造和销售,采取了许多独特的策略。德国一玩具杂志记者就产品、大型康采恩和德国生产环境三个方面的问题。对Rol
与往年一样。美国玩具杂志《Playthings))对全美著名的玩具零售商进行了全面的销售统计与市场分析。透过排名前25位的零售商销售统计、婴幼儿市场构成、孩子最爱玩具调查等。我
英国玩具零售商协会10月15日评选出了2008年72大年度玩具,并从中挑选出精华版的圣诞12大“梦想玩具”。这份每年一度的名单显示了英国最新玩具趋势,而今年我们可以看到音乐、电
有着95年历史的美国国际玩具博览会.今年让高科技玩具抢尽了风头近几年玩具销售疲软,据著名美国市场调查机构NPD Group调查显示.2004年的销售额为201亿美元.下滑了3%,玩具业存在的
利用3H-PP333示踪法研究了土施PP333在辽伏苹果幼树体内的分配规律。结果表明,PP333由木质部运输,在韧皮部积累,并向叶片扩散,以短梢中含量最高,长梢叶片中由基向上含量渐多,而中梢叶由基向上渐少,网状
流沙镇是普宁市政府所在地。入夜的流沙,闹市区灯红酒绿,人流如织,其间夹杂着电动或人力三轮车在马路上穿梭,其喧嚣繁华并不亚于珠三角的一些中小城镇。
本文较系统地观察了新红星苹果从减数分裂到花粉发育成熟的全过程。观察结果表明新红星苹果的减数分裂是典型的双子叶类型,顶花的花粉母细胞减数分裂是同步的,侧花则极不同步。
目的明确韩国人使用汉语的语音特点和在语音人身分析时与汉语方言语音的区分程度。方法对韩国人使用汉语语音偏误和汉语方言点实际发音的相似度进行统计分析。结果韩国人在讲
亚马逊(Amazon)是最早进行互联网销售的先锋,同时在英国也是相当有份量的网络巨人。其在网络上经营玩具时间虽然不长,但已有相当的经验和不错的业绩。最近英国玩具杂志《Toys‘n
编辑同志:由于业务发展,我公司近期搬入了宽敞明亮的新厂房,厂址随之变更。我公司原来已经通过了部分产品的玩具3C认证,请问厂址搬迁后,是否需要重新验证呢?澄海黄先生