面向困难探索博弈环境的深度强化学习算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:pebblefanny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人工智能领域下的分支,机器博弈是检验其发展水平的重要研究方向,一直以来受到了众多研究者的关注。然而,传统的机器博弈方法只能解决解决状态空间小且复杂程度低的问题,如国际象棋和西洋双陆棋。近年来,得益于深度学习的发展,以深度强化学习算法为代表的机器博弈方法得到了长足的发展,并在具有高维状态空间、复杂程度高的游戏上取得了一系列里程碑式的研究成果,例如击败顶尖围棋选手的Alpha Go、战胜Dota职业战队的Open AIFive等。然而,深度强化学习算法在解决机器博弈问题时仍面临着不少的挑战。其中博弈环境的探索难度直接影响着学习的效率,因此当面对困难探索博弈环境时,深度强化学习的学习效率会受到巨大影响,具体表现在收敛困难、样本复杂度高、过拟合等。本文以机器博弈为研究对象,针对上述深度强化学习中存在的问题展开了研究,主要工作和创新点如下:(1)针对困难探索博弈环境中稀疏奖励、延迟奖励和欺骗奖励的特点,导致深度强化学习收敛困难、样本复杂度高问题,本文在对困难探索博弈环境进行分析的基础上,提出了一种基于对手策略课程的深度强化学习方法(简称OSCDRL)。通过引入课程学习的方式,该方法对困难探索博弈环境从对手策略和环境构造两个角度来进行拆解,由此生成一系列由易到难的机器博弈任务给深度强化学习智能体逐个训练,使得智能体可以首先解决探索难度低、奖励反馈易获得的机器博弈任务,最后来解决困难探索博弈环境下的任务。在足球和炸弹人等机器博弈平台上进行实验测试并与奖励塑形、动作剪枝和经验回放等方法对比,从收敛速度、测试表现和课程任务顺序三个角度验证了该算法的有效性和合理性。(2)针对困难探索博弈环境下深度强化学习过拟合的特点,导致OSCDRL算法出现灾难性遗忘问题,本文在此基础上引入了持续学习的方法,提出了基于持续课程学习的深度强化学习方法(CCLDRL)。该方法设计双重记忆系统来将智能体的记忆拆分为用于短期记忆和长期记忆,分别用于保存当前任务下的知识和累积以往任务中的知识,使得学习过程互不干涉。同时,该方法利用贝叶斯在线学习方法和策略蒸馏的方式来实现知识的迁移和累积,保证旧任务中的知识不会被遗忘。为了更好的缓解遗忘问题,采用了块对角克罗内克积分解的方式来获得后验分布中海塞矩阵更加准确的近似。同时,考虑到课程中各个机器博弈任务的相似性,引入了位置信息编码来实现对不同任务间的区分。此外,该方法不仅能解决灾难性遗忘问题,同时在整体性能以及鲁棒性方面均优于OSCDRL方法。最后在2D迷宫导航任务、足球和炸弹人等机器博弈平台上实验验证了算法的有效性。
其他文献
滨水工业遗存具备遗存空间与滨水空间的双重价值,更新不仅面对着产业转型、城市升级的发展需要,更肩负着还江于民、回归城市生活水岸的公共空间塑造任务。早期“大拆大建”的更新模式往往对地方历史的延续有所忽视,公共空间塑造缺乏对生活场景的关注,存在城市气质被淡化,公共空间难以满足实际需求的问题。当前,遗存空间更新开始回归日常视角,历史文化价值与社会公共价值受到更多关注。广州作为珠三角地区工业遗存更新的“领头
大规模天线阵列是5G(第5代移动通信)网络宏覆盖的主流形式,典型采用至多192个辐射单元形成64TR(3单元合成为一路子阵输出)通道,以满足网络覆盖的电性能需求。然而,过多的64收发通道数量带来基站主设备成本和尺寸以及长期应用中的功耗和散热等难题,影响了5G的应用进程。通过引入移相器使之简化为32TR,以及将主设备端的32路滤波器前移到天线端,将化解以上难题。因此,研究具有移相和滤波功能的32TR
副溶血性弧菌、沙门氏菌等致病菌是水产品及禽肉造成集体食物中毒事件的主要致病菌,本文对水产品中五种致病菌及禽肉中两种致病菌进行了检测分析,并从中分离了60株副溶血性弧菌分离株及40株沙门氏菌分离株进行生化鉴定和血清分型,检测了分离株毒力基因的携带情况。以氨苄西林等20种抗菌药物对分离株进行药敏试验,分析其耐药情况。研究结果可为水产品及禽肉监管提供相关理论依据。1、本研究对采集自南方某市水产市场的水产
中国大陆西南沿海的湛江地区属于我国传统多雷区,在夏季雷雨季节,由于雷击造成的10kV架空线路跳闸、设备损坏等故障时常发生,给供电可靠性造成影响。10kV配电网络在电压等级上划分为中压,主要由10kV配电线路以及变压器、断路器等设施构成,担负着将变电站电能输送并转换为社会生产生活所需用电的重任。随着湛江经济、社会发展,用何种措施能减少该地区中压线路遭受雷害从而提升供电可靠性,具有实际研究意义和应用价
近年来,逐渐出现将换热管埋在地下结构中的情况,地埋管和地下结构共同形成地下热工结构,地下热工结构在地热能交换的过程中,温度场的改变会导致土体应力场的改变,从而导致土体力学特性的变化,接触面的力学特性就变得更加的复杂。能够清晰了解温度作用下接触面上的受力状态、变形机理及其剪切破坏形式,对土体与结构接触面的研究是至关重要的。本文在自主改进的温控直剪设备基础上,以纯砂、膨润土、天然砂土和混凝土试块为研究
点对多点微波通信系统是扇形天线的主要应用场景之一。与光通信不同,点对多点微波通信系统在企业专网、海岛通信、郊区住宅宽带接入等领域有着独特的优点。通信枢纽站(HUB站)是点对多点通信系统的核心所在,相比终端站点使用的天线,枢纽站对其使用的天线要求比较高,特别是对它的方向图的要求很高,这个跟枢纽站的组网方案和抗干扰要求息息相关。扇形天线的技术标准规定了天线的最小增益、半功率波束宽度、方向图包络等参数要
由于现代人口老龄化和交通事故等问题,骨肿瘤以及交通事故导致的大段骨缺损等疾病急剧增加,迫切需要开发具有高效骨整合能力的植入材料。钛基植入体具有良好的机械性能和优异的生物相容性,临床应用面广、市场需求量大。对钛基植入体进行表面改性可提高植入体界面处的骨整合的效率,然而,骨组织主要由具有压电响应及微纳结构的胶原纤维结构组成,骨细胞存在于骨组织的生理微环境中。研究证实,通过模拟骨组织弹性模量及拓扑结构达
随着莲种植面积的稳步增长,莲及相关产品的产业化发展越来越成熟。莲蓬作为莲产业中的一种副产物,由于不可食用,多被当作废料丢弃。研究表明莲蓬富含多酚类物质,包括原花青素、槲皮素、金丝桃苷和山奈酚等。本研究以莲蓬为原料,提取并纯化了莲蓬多酚,对其抗氧化、抗糖化和抗炎生物活性进行评价,探究其在月饼中的应用情况,拓宽了莲蓬多酚在食品中的应用领域。主要研究结果总结如下:(1)通过单因素实验和响应面试验获得莲蓬
TP53是细胞内重要的抑癌基因,该基因通过表达p53蛋白参与细胞周期、凋亡、代谢的调控,对肿瘤生长起抑制作用。相关研究表明,超过50%肿瘤中存在TP53基因突变,表达的突变p53蛋白异常稳定地大量积累在肿瘤细胞中。在大多数情况下,突变p53蛋白失去了与其靶基因DNA结合序列相互作用的能力,因而不能激活p53抑癌功能。在某些情况下,突变后的p53蛋白可以获得新的功能,从而促进肿瘤的生长。现阶段针对含
深度学习为机器解决复杂问题提供了一种高效的方法,并被广泛应用于模式识别、自动控制、信号处理等领域。尽管深度学习中包含的卷积神经网络有着强大的性能,但是随着网络深度的不断扩展,出现了网络层次复杂、数据量庞大、数据存储密集等问题,对运行设备提出了较为严苛的要求,制约了卷积神经网络在嵌入式系统中的应用。FPGA的可编程性缩短了设计时间,也便于后期的维护,其并行性使得电路运行速度更快、带宽更高,能够满足卷