基于记忆探索策略的有模型深度强化学习算法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习在各个领域中都展现出了巨大的潜力,但现有的深度强化学习算法需要大量样本才能学习到一个较好的策略,而在实际场景中,深度强化学习样本通常存在数量少、成本高等特性.因此,改善样本利用率是拓展深度强化学习应用范围的关键.除了基于模型的方法之外,智能体的探索策略也是影响样本利用率的重要因素.本文在智能体的行为策略中引入基于记忆的探索方法,其可以通过搜索过去的记忆来快速产生高回报的样本供状态价值网络学习,加快算法的训练过程.通过在仿真环境中利用基准任务来对所提算法进行评测,验证了其有效性.
其他文献
本文论述了用氨水进行催化脱硫的传质和反应机理。分析了在脱硫塔中应用高效规整填料所具有的技术优势,以及在改造设计中应注意的问题。应用效果表明,采用高效填料塔技术是合成
传统的直推式服务器集群网络攻击检测方法具有高检测率和低误报率的优点,但由于算法中采用了欧氏距离的计算使得计算量巨大,且对纠缠疑似攻击的检测效率不高。采用粗糙集的直推式网络异常数据检测方法对服务器集群数据包进行异常监测,在对异常数据奇异值的计算中,引入相似度概念,避免欧式距离出现的"维度灾难",对检测出的异常数据特征加入属性权重进行攻击识别,提高了对服务器集群网络纠缠疑似攻击的检测率和及时性。仿真结
小学语文教学《大纲》指出:“小学生作文就是练习把自己 看到的,听到的,想到的内容或亲身经历的事情。用恰当的语言 文字表达出来。”然而,这看似简单的一句话却让我们的教师
期刊
由于绝对值方程在运筹学是一个不可微的NP—hard问题,传统方法求解绝对值方程速度慢且难以找到全局最优解的缺点,提出了一种求解绝对值方程的改进自适应差分进化算法。首先把绝对值方程问题转化为优化问题,然后对基本差分进化算法进行改进,将具有全局搜索能力和局部搜索能力的变异算子相结合操作,并设置自适应变异算子和交叉算子,改进后的算法在保证种群多样性的同时加快了收敛速度。对三个典型的绝对值方程进行了实验,
为明确运城市冬小麦的产量潜力,研究主要通过农业生态区域模型对运城市1997—2016年冬小麦光合生产潜力和光温生产潜力进行估算,根据生产潜力的衰减机制以及冬小麦不同生育阶
教育是我国基础建设中非常重要的组成部分,其发展关系到我国经济发展速度和发展方向。语文教育是每个中国学生从小 就开始接触的一项教育,对于学生的全面发展有着很大作用。
加强计算机科学与技术特色专业建设,需要从学校、教师、学生和社会等多方面视角加以考虑,围绕社会用人所需和增强学生综合能力等要点,培养计算机科学技术专业人才。
研究北斗卫星组合导航系统实时性和定位精度优化问题。针对UPF算法由于计算量大而不满足组合导航系统实时性要求的问题,通过在采样阶段减少状态变量及重构Sigma点和在重采样阶段利用范数"剔除"无效观测量等手段对UPF算法进行改进,并应用于北斗/INS组合导航系统中。为了验证改进算法的有效性,将改进UPF算法和传统UPF算法进行对比,并通过相对时间、状态估计误差和均方差对实验结果进行定量分析。实验结果表
在飞行器气动运动规律建模过程中,需要进行大量的气动特性预测,预测的过程需要大量的计算,传统的基于气动力工程计算方法会受到属性复杂度的影响,但预测精度不高,计算量过大,会导致延迟问题。提出一种通用飞行器气动特性规律计算混合模型,模型采用响应面建模方法配合CFD软件修正的气动力工程计算方法,在不损失原工程计算方法模型仿真效率的前提下,建立起飞行器的混合气动模型。仿真结果表明:混合气动模型的误差从原来的
本文先从概念和实体学习、实体对齐、上下位关系学习、属性学习、规则和公理学习、学习冲突解决、知识图谱更新等方面阐述 NLP 技术下 IT 设备故障处理领域知识图谱的构建,再