基于优先级扫描Dyna结构的贝叶斯Q学习方法 - 论文文献免费下载 - 搜论网

基于优先级扫描Dyna结构的贝叶斯Q学习方法

来源 :通信学报 | 被引量 : 10次 | 上传用户：eyoujin

【摘要】

：

贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级

【作者】

：

于俊刘全傅启明孙洪坤陈桂兴

【机构】

：

苏州大学计算机科学与技术学院,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

通信学报

【发表日期】

：

2013年11期

【关键词】

：

强化学习马尔科夫决策过程优先级扫描 Dyna结构贝叶斯Q学习 reinforcement learning Markov decision process

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精

其他文献

“走自己的路”德国玩具公司总裁成功经验谈

Rolly玩具公司位于德国库堡新城。他们一向专注于儿童玩具车的制造和销售，采取了许多独特的策略。德国一玩具杂志记者就产品、大型康采恩和德国生产环境三个方面的问题。对Rol

期刊

玩具车德国成功经验总裁生产环境弗兰克

美国玩具零售稳中趋降

与往年一样。美国玩具杂志《Playthings））对全美著名的玩具零售商进行了全面的销售统计与市场分析。透过排名前25位的零售商销售统计、婴幼儿市场构成、孩子最爱玩具调查等。我

期刊

玩具市场零售商美国市场分析婴幼儿统计销售

英国圣诞12大梦想玩具

英国玩具零售商协会10月15日评选出了2008年72大年度玩具，并从中挑选出精华版的圣诞12大“梦想玩具”。这份每年一度的名单显示了英国最新玩具趋势，而今年我们可以看到音乐、电

期刊

玩具英国零售商视相关评选协会显示

纽约展显示玩具发展新动向——数码通讯类玩具成热门

有着95年历史的美国国际玩具博览会．今年让高科技玩具抢尽了风头近几年玩具销售疲软，据著名美国市场调查机构NPD Group调查显示．2004年的销售额为201亿美元．下滑了3%，玩具业存在的

期刊

美国国际玩具博览会市场玩具业数码通讯类玩具发展动向

苹果施用PP333后分配控长及GA缓解效应研究

利用３Ｈ－ＰＰ３３３示踪法研究了土施ＰＰ３３３在辽伏苹果幼树体内的分配规律。结果表明，ＰＰ３３３由木质部运输，在韧皮部积累，并向叶片扩散，以短梢中含量最高，长梢叶片中由基向上含量渐多，而中梢叶由基向上渐少，网状

期刊

PP333分配苹果赤霉素PP333 distribution growth inhibition GA_3 inhibit-relieving

普宁流沙批发市场一瞥

流沙镇是普宁市政府所在地。入夜的流沙，闹市区灯红酒绿，人流如织，其间夹杂着电动或人力三轮车在马路上穿梭，其喧嚣繁华并不亚于珠三角的一些中小城镇。

期刊

批发市场流沙中小城镇市政府闹市区三轮车珠三角红酒人力

新红星苹果花粉粒形成的光镜及电镜观察

本文较系统地观察了新红星苹果从减数分裂到花粉发育成熟的全过程。观察结果表明新红星苹果的减数分裂是典型的双子叶类型，顶花的花粉母细胞减数分裂是同步的，侧花则极不同步。

期刊

苹果减数分裂花粉粒电子显微镜apple meiosis pollen grain anther

韩国人使用汉语的语音特点及分析时的注意事项

目的明确韩国人使用汉语的语音特点和在语音人身分析时与汉语方言语音的区分程度。方法对韩国人使用汉语语音偏误和汉语方言点实际发音的相似度进行统计分析。结果韩国人在讲

期刊

韩国人汉语方言语音人身分析

亚马逊的网络玩具销售

亚马逊（Amazon）是最早进行互联网销售的先锋，同时在英国也是相当有份量的网络巨人。其在网络上经营玩具时间虽然不长，但已有相当的经验和不错的业绩。最近英国玩具杂志《Toys‘n

期刊

玩具销售网络互联网英国

3C获证企业搬厂须交更改申请

编辑同志：由于业务发展,我公司近期搬入了宽敞明亮的新厂房,厂址随之变更。我公司原来已经通过了部分产品的玩具3C认证,请问厂址搬迁后,是否需要重新验证呢？澄海黄先生

期刊

3C认证企业业务发展厂址

与本文相关的学术论文