不确定性环境下基于进化算法的强化学习

来源 :电子学报 | 被引量 : 0次 | 上传用户:crying___leaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA.Q.learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用Memetic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm
其他文献
建筑施工安全管理的对策冷文照(江苏省江都县建安公司)随着改革开放力度加大,建设行业在市场经济的大潮中迅猛发展,建筑施工企业面临的任务十分繁重、给安全生产工作产生了巨大压
触电急救知识张钜(上海金山县质安分站)当人体接触电器设备或电气线路的带电部分,并有电流流经人体时,人体将会因电流刺激而产生危及生命的医学效应,这种现象称为人体触电。在工频
工地电动工具为何○麻○手○胥庆敏(山东聊城地建八公司)某天夜间,某工地职工反映:该工地所有用电设备,诸如标准铁壳配电箱、搅拌机、塔吊吊钩等无人敢碰,有“麻手”现象。据反映情
一个甜橙的花斑变异,其枝,叶,果实表现不同程度的白绿镶嵌的花斑,研究表明,这是由于L-Ⅱ组织原层发生失绿突变,由此衍生的组织器官,叶绿素的合成受阻,从而产生白化现象,这是一个由核基因
高层结构机械化施工安全管理北京市机械施工公司本公司是一个有30多年历史的机械化专业比建筑施工大型骨干企业。过去在吊装方面以承担工业厂房、大型公共建筑设施、钢筋砼框架
修正了GM(2,1)灰色模型,利用Z变换给出GM(1,1)、GM(2,1)的时间响应序列,改进了灰色预测模型,同时证明该时间响应序列具有自回归性。
推出具有多个内插管并联管路声学元件的声传递矩阵,利用声传递矩阵进行柴油机排气消声器的插入损失的计算,模拟计算结果与试验数据具有较好的拟合程度。
一种全新设计的用于测定Anastatussp.寄生蜂对寄主卵的功能反应。在同一实验空间中,各种密度的卵卡数量不相同,但每一种密度所拥有的总卵总数都一样,研究结果表明,寄生蜂在这种实验空间中不能
以整个机组为对象,对驱动式圆盘犁机组作受力分析,计算了拖拉机前后轮载荷的变动量,机组的直线行驶性能,驱动式圆犁在水平面内的平衡,以及工作参数,悬挂参数对水平面内平衡的影响,并
本文提出了一种新的基于模糊聚类和免疫原理相结合的入侵检测模型,同时文章中对RPCL算法进行了改进,克服了原有RPCL算法中不同变量量纲以及变量相互间相关性对算法性能的影响,同