深度强化学习在视频游戏中的应用

被引量 : 0次 | 上传用户:zhq198709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何直接通过高维感知输入(如视觉、语音等)的学习去控制agents对强化学习来说是一个长期的挑战。这些领域中成功的强化学习应用案例主要依赖于组合人工特征和线性价值函数或策略表达来实现,然而这些系统的性能严重的取决于特征选取的好坏程度。随着深度学习领域的进展直接从原始感知的高维数据中提取高层特征变成可能,这些成果导致了在计算机视觉领域和语音识别领域的突破。这些方法应用了一系列的神经网络架构,包括卷积神经网络,多层感知机,限制玻尔兹曼机和递归神经网络等,并且均使用了监督学习和无监督学习。这些技术的突破让人们开始考虑是否能给强化学习领域带来新的发展。然而从深度学习的角度来看强化学习则呈现出了一系列的挑战。首先,迄今为止大多数成功的深度学习应用中需要大量人工标记的训练数据,而强化学习必须从稀疏的、有噪声的和延迟的奖励信号中去学习。另外,在多数深度学习算法中假设数据样本是独立的,但是在强化学习中数据会高度序列化相关。此外在强化学习中数据分布会随着算法学习到新的行为而改变,与深度学习中假设数据从同一潜在分布中采样不同。本文提出以下方法克服这些问题,首先根据任务的具体情况设计了一种深度神经网络架构,可以在复杂的强化学习环境中提取高层特征并直接通过原始视频数据学习到控制策略;另外,本文提出了一种加权模型融合的方法,该方法使用了8种不同网络架构并且性能相近的模型进行融合,融合方法能够平稳模型的决策方案并提升游戏性能;此外,这些网络均使用一种改进的Q-learning算法来进行训练,算法在训练过程中使用特殊的采样方法从大量的历史经验数据中采样样本并使用mini-batch的L-BFGS算法进行权重更新。通过实验表明,结合深度神经网络的强化学习模型通过使用改进后的Q-Learning算法进行训练能够以平稳的方式成功学习到控制策略,该模型在视频游戏的表现上对比传统强化学习模型和NFQ模型有明显提高并且6个游戏中有4个的测试得分超过人类玩家,同时通过加权模型融合的方法可以进一步提升模型在视频游戏中的表现。
其他文献
从复杂系统的角度出发,根据电力系统的特点建立基本复杂网络模型,引入具有电力系统特征的物理参数,对电力系统的复杂网络模型加以改进。针对目前较为关注的小世界特性和无标
为了筛选对地下害虫金针虫具有增效作用的复配药剂组合,采用浸渍法测定各复配组合对沟金针虫3龄幼虫的联合毒力,通过共毒因子法筛选出共毒因子大于20复配组合,然后进一步细化
当前,教育系统比较流行的一句话是:教学要"解一题、会一类、通一路".区别于义务教育阶段,针对高中各学科教材的特点,如何实现真正意义上学生学习能力的提高,从而更好地胜任高考
目的:探讨护理干预对初产妇产后负性情绪和睡眠质量的影响。方法:将120名初产妇随机分为干预组和对照组,每组各60名。对照组采用常规治疗和护理,干预组同时进行孕期健康教育
民族习惯法在民族地区处理刑事纠纷中发挥着一定积极作用的同时,对刑事司法产生着消极影响。在刑事司法体系之外并存着另一个处理刑事案件的系统,一定程度上威胁到国家法制的
目的探讨针对阴道分娩产妇,观察临床给予预见性护理干预对产后出血症状产生的影响。方法选取我院2013年2月~2015年2月阴道分娩产妇110例。通过随机数表法随机分组。B1组(观察
针对低速直驱风力发电应用场合,对电励磁双凸极电机的极数进行了研究。双凸极电机属变磁阻电机,存在2个气隙且电枢绕组为集中绕组,常规电机数学模型已不再适用。该文分析了电
新中国成立60年来,社会主义法治建设历经坎坷曲折,最终走上了实践依法治国、建设社会主义法治国家的道路。建国早期我国有过追求法治的理想和实践,1978年前的20年几乎是我国
公共信息的公共性本质决定了公共信息服务主体的多样性,而政府公共信息服务的低效与缺位和企业信息服务的营利性动机导致第三部门成为公共信息服务的重要力量,并具有灵活、高效
网络服务提供者民事侵权过错认定,应以民事主体实施行为时所负有的注意义务为前提,这有利于适应网络信息技术的迅猛发展,以及网络服务提供者公平、合理地承担相应的民事侵权