【摘 要】
:
增强学习近年来多被用于智能体自动游戏,但增强学习在面对过大的状态或者行动空间时不能很好地处理。深度增强学习结合深度学习的感知能力和增强学习的决策能力,可以有效解决
论文部分内容阅读
增强学习近年来多被用于智能体自动游戏,但增强学习在面对过大的状态或者行动空间时不能很好地处理。深度增强学习结合深度学习的感知能力和增强学习的决策能力,可以有效解决环境复杂问题。将增强学习与深度学习结合,通过改进的Markov决策过程逐步学习最优策略。首先找到目前的环境中最有价值的状态,从而产生最大积累奖励的行动,然后通过利用深度增强学习方法训练计算机自动完成一个简单游戏,使用控制变量法分别分析迭代次数和游戏难易程度对游戏得分的影响。试验结果表明,在外界环境相同时,准确率随着试验迭代次数的增大或游戏难度的减弱而增大,从而验证了智能体可以通过外界因素的改变进行更有效训练,最终获取最优结果。
其他文献
本文介绍了新型抗精神病药阿立哌唑的药理作用、药代动力学、疗效及不良反应
氧化镁晶须作为一种高科技材料,其用途广泛,市场潜力巨大。详细总结了近年来国内外对于氧化镁晶须的研究进展,并指出了各种制备方法的优缺点。
辽宁是我国重要的粮食主产省之一,特别是玉米、稻谷等大宗粮食作物在我国粮食生产中占有极其重要的地位。本论文从发展现状、波动规律与优势空间布局、生产效率、适度规模经
在刑事诉讼中,证据是基础与核心,没有证据,一切诉讼活动都将成为无本之木。但是我国的证据立法却比较落后,在我国的刑事法典中,更是没有设立系统的证据规则,尤其是在证据的财
双足机器人具有环境适应性能力强、具有类人形的外表、具备较强的运动能力等特点,是目前机器人研究领域比较热门的问题之一,国内外众多的研究机构及团体先后投身于此项研究之
<正> 彭吉象档案: 彭吉象,著名艺术教育家与影视美学专家。1984年毕业于北京大学美学专业,历任总政文化部艺术局创作员、北京大学艺术学系书记、副系主任、教授,并兼任中国高
以美国十大天然气和石油钻头制造厂商为主线 ,对这些厂商当前所开发的钻头制造新技术及其推出的各类新产品进行了详细的描述 ,产品及技术范围涉及牙轮钻头、金刚石钻头、随钻
当前我国互联网金融发展如火如荼,各种互联网金融产品层出不穷,满足了人们对金融服务大众化、个性化和普惠化的需求,深受大众喜爱和追捧,并得以迅速发展和壮大,并与传统金融
平台经济的发展历史告诉我们,跨领域创新是企业创新的必然趋势,是企业赢得战略发展空间的必然选择。企业跨界创新要主动拥抱互联网和信息技术,瞄准供应链、产业链、价值链再