基于内在奖励和辅助任务结合的深度强化学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yolandaguyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术的发展日新月异,机器博弈作为其中的热门研究领域受到了研究者的广泛关注。近年来,以深度强化学习算法为代表的机器博弈方法得到了长足的发展。一方面,Alpha Go等围棋智能体的成功标志着深度强化学习算法在完备信息机器博弈领域已取得了重大突破。另一方面,非完备信息机器博弈因其复杂度高、信息感知不完全等特点,已成为人工智能领域新的研究焦点。本文主要研究非完备信息条件下三维视频游戏的策略求解问题。针对视频游戏博弈中高维状态空间与信息感知不完全的问题,提出了一种基于内在奖励策略优化算法的深度强化学习方法。在该方法中,首先利用限制行动策略比值更新幅度的手段缓解了运用传统算法时产生的高方差、不稳定问题。其次,针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本文提出了内在奖励模型,通过设计目标映射网络与预测网络产生内在奖励值弥补环境反馈奖励值的缺失,辅助智能体进行策略更新。最后,考虑到内在奖励模型与传统策略优化算法的结构性差异,通过调整价值网络的结构对两者进行融合,进而提出内在奖励策略优化算法,提升了智能体在稀疏奖励三维场景中的行动效果。从增强智能体对环境奖励信息的感知能力和对强化学习状态信息的估计准确度的角度出发,本文依据多任务学习中的辅助任务学习机制,提出和设计了三种类型的辅助学习任务。通过使用经验回放技术,采样智能体的交互数据用于辅助任务的训练,实现了深度强化学习与辅助任务学习的有效结合。在此基础上将辅助任务学习机制与内在奖励策略优化算法结合,进一步提升了原始强化学习算法训练出的智能体在三维场景中的性能。本文以三维视频游戏Vizdoom作为深度强化学习算法的测试平台,通过相关实验分析验证所提出算法的有效性。
其他文献
为了方便阅读,大多数文档的前景文字与背景区域都特意的以高对比度的方式呈现。图像的二值化是文本识别中一个十分重要的步骤。当涉及到退化文档图像的处理时,图像的二值化就
动作识别与时序分割是一项十分重要的视频理解任务,在视频监控、视频检索、自动驾驶等领域有着广泛应用.其目标不仅是识别一段未修剪视频中包含哪些动作,还要预测每个动作在
女性的生命健康严重受到乳腺高发恶性病变的威胁,尽早的发现与治疗将有效提升乳腺癌患者的生存率。乳腺X线摄影(Mammography)作为临床上进行良恶性病变筛查的首选方法。在常
随着计算机领域的快速发展,计算能力已不再是机器学习研究的瓶颈。目前,以深度神经网络(DNN)为首的深度学习技术已经大量的应用到各个领域,如语音识别、智能驾驶、图片识别等
副溶血弧菌是一种革兰氏阴性菌,具有分布广泛,危害能力强的特点,是沿海区域细菌性食物中毒的首要原因,对人体造成危害的同时也对财产造成巨大的损失。一直以来,副溶血弧菌常
随着以互联网为代表的信息通信技术的快速发展和国家信息数字化战略的不断推广,人们的日常生活不断网络化和数字化。网络空间已上升为国家安全的“第五疆域”。与此同时,新的
石化能源过度消耗引起环境污染和能源危机等全球性问题,发展可替代石化能源的新能源是人类社会和经济可持续发展的必然决择。生物柴油是一种燃烧热值高、污染少的绿色可再生
由于不断加剧的温室效应以及能源危机的出现,使得生物柴油近年来受到广泛关注。相对于其他制备生物柴油的原料,微藻具有较高的光合效率,较大的生长速率,生长周期短以及条件易
无线电测向运动是在旷野、山丘、丛林等陌生环境中,借助无线电测向机,按顺序寻找隐蔽电台的一项融体育、科技、教育、军事于一体的竞技体育项目,这项运动也被称为“猎狐”运
实际工业生产过程中绝大多数机械或机电系统都可以用欧拉-拉格朗日方程进行描述,由该类方程所描述的系统的控制问题一直是控制理论和控制工程研究的热点.本文主要研究了一类