基于迁移学习的高效深度多智能体强化学习算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:av437556057
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度强化学习已经在机器人控制、游戏等领域取得了大量的研究成果。然而,在如何有效的促进深度强化学习的学习效率方面,仍存在一定的局限性与挑战,在多智能体领域这一问题随着智能体数量的增加以及环境动态的高复杂性变得更加严重。具体表现在三个方面:第一,当前深度强化学习算法存在采样低效性问题,使得在复杂和大规模问题上从头学习非常困难;第二,多智能体系统中存在维度灾难问题,由于探索空间随着智能体数量的增加呈指数级增长,较单智能体问题学习难度更高,采样效率更为低下;最后,智能体的行为受到环境中其他共存智能体行为的影响,在其他智能体的行为高度复杂变化时,现有算法难以准确预测和判别,很难做出最佳响应。针对上述挑战,本文提出基于迁移学习的高效深度多智能体强化学习算法研究,从单智能体策略迁移,多智能体策略迁移以及多智能体高效策略响应三个方向展开,论文的主要工作内容如下:首先,针对单智能体深度强化学习采样低效性的问题,本文提出了基于策略迁移的高效深度强化学习框架,提升了强化学习算法的性能。进一步,考虑到现有方法在迁移粒度上的局限性,本文在策略迁移框架的基础上,提出了基于选项的策略迁移算法,有效地识别先验知识中部分有效的信息,提升了策略迁移的能力。最后,针对现有方法在权衡迁移与在线学习上的局限性,提出了自适应迁移权重调整机制,实现了先验知识以及现有经验之间的权重分配,有效地避免了负迁移。本研究显著地提升了既有算法的学习效率与最终表现,在多个平台上验证了本研究有效地利用策略迁移极大地促进了高效的深度强化学习。其次,本文研究如何利用策略迁移解决合作式多智能体强化学习的样本效率低下和协作程度低下的问题,提出了面向多智能体的策略迁移框架,实现高效的深度多智能体强化学习。针对多智能体之间的策略迁移问题,提出了基于联合选项的多智能体策略迁移算法,有效地实现智能体之间的知识共享,提升了整体的学习效率。进一步,针对部分可观察条件下的样本冲突问题,提出了后继表征选项的学习算法,通过将环境动态与环境奖赏解耦,提升了值函数估计的准确性,实现了在每个智能体的偏好下,为智能体选择合适的策略进行知识迁移,极大地提升了多智能体算法的性能,为促进多智能体高效协作和探索提供了一定的研究基础。最后,本文考虑了面向高复杂性多智能体环境下的策略响应问题,针对多智能体环境的非平稳性问题以及既有算法使用单一策略难以应对高复杂性对手的局限性,提出了基于贝叶斯策略重用和层次递归推理的Bayes-To Mo P算法,有效应对高复杂性对手的行为变化。本文提出使用层次递归推理的对手模型来建模对手的复杂行为变化,从奖励信号和对手模型双重角度实现准确的对手行为预判。此外,Bayes-To Mo P实时预测对手是否使用未知策略,并提出了在线学习算法来学习应对策略,以应对未知对手的行为。综上,本研究实现了准确的高复杂性对手行为预判以及高效的策略响应,对于应对多智能体环境下复杂对手的多智能体策略响应问题具有一定的指导意义。综上,本文以基于迁移学习的高效深度多智能体强化学习为研究目标,从单智能体环境下的策略迁移,协作环境下的多智能体策略迁移以及协作竞争混合环境下的策略响应三个方向展开研究,深入探讨了单智能体深度强化学习算法采样低效性的问题、多智能体深度强化学习面对采样低效性和维度灾难的问题,以及面向高复杂性多智能体环境下的策略响应问题,并通过实验论证了本文研究成果的有效性。本研究兼顾工程实践与科学研究,对使用深度强化学习算法解决实际问题起到了一定的指导作用。同时,为多智能体的策略响应、多智能体协作以及扩展到大规模多智能体系统的应用等领域提供了一定的参考价值。
其他文献
报纸
如何有效的通过计算机辅助方法完成医疗影像分割任务是一个重要的研究问题。近年来,有关深度学习的研究获得了大量的关注并取得了显著的研究成果。然而,目前深度学习在医疗影像分割的应用中仍然存在许多难题与挑战。这些难题与挑战包括:医学影像分割不同于自然图像分割,虽然医疗影像的结构单一,但是对于分割精度要求极高;医疗影像标注的成本和患者隐私等问题使得医疗数据相对稀缺;不同的医疗设备会生成独特且难以检测的噪声,
学位
本论文探讨了基于深度学习技术的全面网络安全策略及其在实际环境中的应用和挑战。首先阐述了深度学习算法的基本原理和在网络安全中的应用,包括恶意软件检测、入侵检测以及数据加密与隐私保护等方面。接着设计了全面网络安全策略的实践案例,分别在虚拟场景和真实网络环境中进行了恶意软件检测、入侵防御和数据加密等实验。最后,对全面网络安全策略的重要性进行总结。
会议
长期结构健康监测系统可以实时测量土木工程结构的结构响应和环境数据,对检测结构损伤,评估结构安全状态,防止灾难性事故发生具有重要意义。监测数据作为连接工程结构和工程师的桥梁,其完整性和有效性是准确分析结构运营状态的基础。然而,由于极端荷载、传感器老化故障、信号传输干扰等不可避免的人为与自然因素,监测系统在运营过程中时常发生测量数据丢失,致使当前时段的结构信息缺失,进而影响结构健康监测的连续性和可靠性
学位
新建隧道穿越既有铁路具有较高的风险,倘若施工不当会使铁路结构产生较大变形和损害,影响列车后期运营的安全性。贵阳轨道交通3号线花果园西站-花果园东站区间隧道下穿川黔铁路路基及侧穿贵广铁路桥桩,为确保隧道施工安全,在施工前对主要风险源进行辨识分析,针对主要风险源采取了相应控制措施,并采取了合理的施工方案和辅助施工技术。该风险分析方法及采用的施工控制措施可为类似工程提供参考。
期刊
由于外部环境的突变、信息传递和交换延迟以及随机噪声的干扰等因素影响,系统参数和结构突变、时滞以及随机现象在电力系统、金融系统、飞行器控制系统、工业生产系统和通信系统等各种实际应用中经常出现,而且是导致系统振荡和不稳定的主要原因.因此,研究含有混合时滞的随机系统的稳定性问题具有重要的理论意义和应用价值,也是研究的难点所在.近年来,关于随机混合时滞系统的稳定性分析受到了国内外学者的广泛关注.其中格外受
学位
对时滞系统设计控制器是当前国际上研究的难点和热点之一.目前存在的一些结果通过复杂的控制器设计给出反馈控制律,但对应的闭环系统稳定性难以证明.本文重点研究了带输入时滞偏微分系统的控制器设计问题,构造控制器形式,旨在建立一个有普适性的控制器设计策略,同时设计出来的控制器一定使得闭环系统稳定,这样既解决了设计本身这个难题,又克服了闭环系统稳定性分析的难点.本文的研究方法是在系统状态已知的假定条件下进行的
学位
在这篇文章中,我们建立了序空间中非线性发展方程的局部与全局动态分支理论,并给出了这些新理论的两个应用.在具有锥结构P的序Banach空间X上考虑发展方程ut+Au=fλ(u),其中A是一个扇形算子,λ∈Rd是分支参数.我们在锥内建立了新的局部与全局吸引子分支理论.首先利用局部不变流形理论证明在分支点附近发生了局部吸引子分支,其次验证分支出的吸引子限制在正锥P上非空.也就是说,确实存在发生于锥内的局
学位
为研究地铁车站施工工法拱盖支柱法施工力学行为,以贵阳地铁3号线北京路站为依托工程,采用数值模拟和现场监测相结合的方法,对拱盖支柱法施工过程中的围岩变形、地表沉降以及支护结构受力进行研究。结果表明:1)拱盖支柱法灵活运用洞桩法和中洞法的施工理念形成顶部支承结构,充分利用下层硬岩的承载作用,有效地控制了地表沉降和围岩变形; 2)上部中导洞开挖是导致拱顶和地表沉降最大的施工阶段,上部侧导洞开挖是导致支护
期刊
图像合成是指利用随机噪声、标签信息或语义特征等内容学习如何生成目标图像的技术。图像合成技术作为计算机视觉领域中重要的研究课题,广泛应用于诸如图像编辑、电影特效等多个领域。然而,由于自然图像的多样性和高度复杂性,建立能够合成高质量图像的生成模型仍然是一个巨大的挑战。2014年,生成对抗网络(GAN)的提出迎合了深度学习技术的需求,极大地促进了图像合成任务的发展。目前,基于GAN模型的图像合成研究受到
学位