深度强化学习在视频游戏中的应用

被引量 : 0次 | 上传用户：zhq198709

【摘要】

：

如何直接通过高维感知输入(如视觉、语音等)的学习去控制agents对强化学习来说是一个长期的挑战。这些领域中成功的强化学习应用案例主要依赖于组合人工特征和线性价值函数或

【作者】

：

邱立威

【发表日期】

：

2015年期

【关键词】

：

强化学习深度学习模型融合视频游戏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何直接通过高维感知输入(如视觉、语音等)的学习去控制agents对强化学习来说是一个长期的挑战。这些领域中成功的强化学习应用案例主要依赖于组合人工特征和线性价值函数或策略表达来实现,然而这些系统的性能严重的取决于特征选取的好坏程度。随着深度学习领域的进展直接从原始感知的高维数据中提取高层特征变成可能,这些成果导致了在计算机视觉领域和语音识别领域的突破。这些方法应用了一系列的神经网络架构,包括卷积神经网络,多层感知机,限制玻尔兹曼机和递归神经网络等,并且均使用了监督学习和无监督学习。这些技术的突破让人们开始考虑是否能给强化学习领域带来新的发展。然而从深度学习的角度来看强化学习则呈现出了一系列的挑战。首先,迄今为止大多数成功的深度学习应用中需要大量人工标记的训练数据,而强化学习必须从稀疏的、有噪声的和延迟的奖励信号中去学习。另外,在多数深度学习算法中假设数据样本是独立的,但是在强化学习中数据会高度序列化相关。此外在强化学习中数据分布会随着算法学习到新的行为而改变,与深度学习中假设数据从同一潜在分布中采样不同。本文提出以下方法克服这些问题,首先根据任务的具体情况设计了一种深度神经网络架构,可以在复杂的强化学习环境中提取高层特征并直接通过原始视频数据学习到控制策略；另外,本文提出了一种加权模型融合的方法,该方法使用了8种不同网络架构并且性能相近的模型进行融合,融合方法能够平稳模型的决策方案并提升游戏性能；此外,这些网络均使用一种改进的Q-learning算法来进行训练,算法在训练过程中使用特殊的采样方法从大量的历史经验数据中采样样本并使用mini-batch的L-BFGS算法进行权重更新。通过实验表明,结合深度神经网络的强化学习模型通过使用改进后的Q-Learning算法进行训练能够以平稳的方式成功学习到控制策略,该模型在视频游戏的表现上对比传统强化学习模型和NFQ模型有明显提高并且6个游戏中有4个的测试得分超过人类玩家,同时通过加权模型融合的方法可以进一步提升模型在视频游戏中的表现。

其他文献

电力系统复杂网络特性分析与模型改进

从复杂系统的角度出发,根据电力系统的特点建立基本复杂网络模型,引入具有电力系统特征的物理参数,对电力系统的复杂网络模型加以改进。针对目前较为关注的小世界特性和无标

期刊

电力系统复杂网络统计特性指标小世界无标度

防治沟金针虫的农药复配增效配方筛选

为了筛选对地下害虫金针虫具有增效作用的复配药剂组合,采用浸渍法测定各复配组合对沟金针虫3龄幼虫的联合毒力,通过共毒因子法筛选出共毒因子大于20复配组合,然后进一步细化

期刊

沟金针虫氯虫苯甲酰胺药剂复配共毒系数共毒因子

突破高考难点浅析两类含参数问题——“解一题、会一类、通一路”

当前,教育系统比较流行的一句话是：教学要＂解一题、会一类、通一路＂.区别于义务教育阶段,针对高中各学科教材的特点,如何实现真正意义上学生学习能力的提高,从而更好地胜任高考

期刊

数学教学“解一题、会一类、通一路”两类含参数问题嚼得烂方好消化学习能力的提高

护理干预对初产妇产后负性情绪和睡眠质量的影响

目的:探讨护理干预对初产妇产后负性情绪和睡眠质量的影响。方法:将120名初产妇随机分为干预组和对照组,每组各60名。对照组采用常规治疗和护理,干预组同时进行孕期健康教育

期刊

护理干预负性情绪

国家法制统一视野下民族习惯法对刑事司法的影响与应对——以四川凉山彝族自治州为例

民族习惯法在民族地区处理刑事纠纷中发挥着一定积极作用的同时,对刑事司法产生着消极影响。在刑事司法体系之外并存着另一个处理刑事案件的系统,一定程度上威胁到国家法制的

期刊

民族习惯法刑事司法法制统一凉山彝族

预见性护理对降低阴道分娩产后出血的效果观察

目的探讨针对阴道分娩产妇,观察临床给予预见性护理干预对产后出血症状产生的影响。方法选取我院2013年2月~2015年2月阴道分娩产妇110例。通过随机数表法随机分组。B1组(观察

期刊

预见性护理阴道分娩产后出血

直驱式电励磁双凸极风力发电机的极数研究

针对低速直驱风力发电应用场合,对电励磁双凸极电机的极数进行了研究。双凸极电机属变磁阻电机,存在2个气隙且电枢绕组为集中绕组,常规电机数学模型已不再适用。该文分析了电

期刊

直驱风力发电机电励磁双凸极电机单元电机多极电机

论建国后国家及社会治理中法律权威的认知与尊崇——以若干标志性事件或话题为切入点

新中国成立60年来,社会主义法治建设历经坎坷曲折,最终走上了实践依法治国、建设社会主义法治国家的道路。建国早期我国有过追求法治的理想和实践,1978年前的20年几乎是我国

期刊

中国特色社会主义人治法治依法治国法律至上

公共信息服务的社会选择——政府与第三部门公共信息服务的相互关系分析

公共信息的公共性本质决定了公共信息服务主体的多样性，而政府公共信息服务的低效与缺位和企业信息服务的营利性动机导致第三部门成为公共信息服务的重要力量，并具有灵活、高效

期刊

信息服务公共性政府第三部门

论网络服务提供者民事侵权过错认定

网络服务提供者民事侵权过错认定,应以民事主体实施行为时所负有的注意义务为前提,这有利于适应网络信息技术的迅猛发展,以及网络服务提供者公平、合理地承担相应的民事侵权

期刊

网络服务提供者民事侵权主观过错注意义务

深度强化学习在视频游戏中的应用

与本文相关的学术论文