基于深度强化学习在游戏上的应用

来源 :沈阳理工大学 | 被引量 : 3次 | 上传用户:zyy_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对图像进行识别并做出判断输出相应的动作或者决策对很多领域有重要的意义,特别是在汽车的无人驾驶,医疗机器人等方面。深度学习作为一种无监督的图像识别的技术极大实现中间没有进行额外的人工标记的工作。强化学习是通过优化累积的未来奖励信号学习连续决策问题的良好策略。两者的结合使得深度强化学习实现识别图像到动作选择的一种全新的算法,可以直接根据输入的图像实现控制功能,是一种类似于人类学习方式的人工智能方法,其特点是达到和人类一样由感知信息比如视觉,然后通过深度神经网络直接输出相应的动作。深度强化学习具备使机器人实现真正完全自主的学习技能的潜力。深度强化学习在理论和应用方面均取得了显著的成果,对促进人工智能领域的发展具有极大的意义。本文基于深度强化学习的相关理论识别视频游戏中的图像,并根据不同的图像信息输出对应的动作策略,例如,游戏中的上,下,左,右,攻击等。本文具体的工作内容包括:(1)强化学习中本文采用的是Q-learning算法,但是算法有时候学习到不符合实际的高的动作价值函数,因为它包括一个倾向于高估计价值函数的最大化步骤。在以前的研究中,过高的估计是不够有效灵活的函数近似和噪音。研究显示动作值预测不准确的时候过高估计就会发生,这在实践中会对特别是在训练的稳定性上产生负面影响。本文采用了双步Q-learning,可以推广到任意的函数近似,包括在深层神经网络应用双步Q-learning形成的双步DQN(Double Deep Q-learning Network)的方法来解决过高估计问题。(2)另外,深度学习的训练需要大量的样本数据,而且本文在数据集上使用的样本会有高度的相关性问题,本文通过添加了融合了不同模型的神经网络,称之为融合模型的神经网络结构,神经网络结构的不同造成样本数据的多样性提高,并在经验回放机制采样的过程中减少了样本的相关性。仿真结果显示了双步深度强化学习算法不仅产生更准确的估计值,提高训练的稳定性。而且成功学习到了控制策略,并在几款视频游戏中得分要比原始深度强化学习高得多。这表明原始DQN的过高估计确实学到了不是最好的策略,减少这些过高估计是有益的,同时通过模型融合的方式进一步提高了深度强化学习在视频游戏中的得分。
其他文献
在开放创新的背景下,企业的网络能力对其创新型企业属性的形成有显著影响,这种影响过程受到企业采取的创新战略形式的扰动。据此构建了网络能力、创新战略和创新型企业间关系
试论当前农村教育的问题与对策肖第郁我国是一个农业大国,农村人口占全国总人口的百分之八十以上。农村教育是我国教育的重点和难点,农村教育的成效如何,直接关系到我国教育的整
食盐乃百味之王,是人体所需氯和钠的主要来源,“无盐则肿”。我国古代的食盐主要有四大来源,即海盐、池盐、井盐和岩盐。其中海盐主要产于我国东部沿海,而山东沿海又是海盐的主要
报纸
通过对"专精特新"概念的界定,提出"专精特新"的概念模型,认为"专精特新"是小微企业转型发展的可行路径选择。借助问卷调查,以江苏小微企业为例分析小微企业"专精特新"的现状,
为探究技术进步与能源消费的内在关系,本文采用面板门槛回归方法,结合1990—2012年我国省际面板数据构建面板门槛回归模型,以经济发展水平为门槛变量,实证研究了技术进步对能
目的探讨U100plus激光碎石在胆囊颈管嵌顿结石中的应用价值。方法回顾性分析52例接受U100plus激光碎石治疗的胆囊颈管嵌顿结石患者的临床资料。结果本组52例均手术成功,其中1
<正> 柠檬是芸香科橘属植物柠檬树的果实,椭圆形,果皮橙黄色,果实汁多肉脆,闻之芳香扑鼻,食之味酸微苦。一般不能像其他水果一样生吃鲜食,而多用来制作饮料。柠檬二三月份成
期刊
沈凤喜、何丽娜、关秀姑三个女性都是以樊家树为主轴的恋爱者,因为每个人的生活环境、所受教育以及自身性格的不同,表现、言行也大相径庭。各有各的不幸,但在她们身上却有一个共
以位于乌蒙山区的贵州省毕节市3个连片县域为实证区,旨在探讨不同类型主体功能区绩效评价创新方法。依据主体功能区规划划分理论框架,从分别代表现有发展程度、未来开发潜力
目的:建立HPLC同时测定川芎中绿原酸、川芎嗪、阿魏酸、洋川芎内酯Ⅰ、洋川芎内酯H、阿魏酸松柏酯、洋川芎内酯A、正丁基苯酞、Z-藁本内酯、丁烯基苯酞10种化学成分含量的方