基于Meta平衡的多Agent Q学习算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:daTyrant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent强化学习算法的研究一直以来大多都是针对于合作策略,而NashQ算法的提出对非合作策略的研究无疑是一个重要贡献。针对在多Agent系统中,Nash平衡无法确保求得的解是Pareto最优解及其计算复杂度较高的问题,提出了基于Meta平衡的MetaQ算法。与NashQ算法不同,MetaQ算法通过对自身行为的预处理以及对其它Agent行为的预测来获取共同行为的最优策略。最后通过研究及气候合作策略游戏实验,证明了MetaQ算法在解决非合作策略的问题中有着很好的理论解释和实验性能。
其他文献
基于非线性扩散在保留图像重要特征方面表现出的良好性能,提出将曲率作为一个控制传导率因素的曲率驱动与边缘停止相结合的非线性扩散模型(C&E模型)应用于图像放大。该模型在实现热扩散时不仅能够连接等照度线和强化边缘,而且强调保护小曲率和大梯度。针对这一模型进一步讨论了其应用于图像放大的初始化条件和数值实现方案。实验结果证明,具有曲率运动、边缘冲击特性和平滑去噪性能的C&E模型较线性扩散方法能更好地放大图
适应性是普适计算软件的主要特征。现有研究工作在模型和体系结构层面上缺乏对软件自适应的内在抽象,因而很难为自适应软件的建模、开发和运行提供全面支撑。针对现有研究工
IPv6较IPv4有很多优势,如几乎无限的地址空间、自动配置机制、简化的报头结构、内置IPSec协议、扩展报头以及对流标签的支持等。基于网络应用日益丰富,而网络安全的威胁无处
针对可重构片上系统(RSOC)应用设计复杂、编程困难的问题,提出了一种软硬件协同设计方法。该方法整体框架基于特定功能模块的软硬件协同函数。给出了方法的基本流程、涉及的关
在语义技术及其应用中,本体学习是一个研究热点,而领域概念筛选则是本体学习的基础。对于领域概念筛选问题,领域一致度与领域相关度相结合的方法效果较好,却也存在信息描述不
提出一种改进的基于双密度复小波系数组合的图像去噪算法。采用双密度复小波分解噪声图像,将其变换系数按规则重新排列组合,增强了图像的边缘信息。引入贝叶斯最大后验估计理论下的双变量模型,充分挖掘其系数尺度内和尺度间的双重关联性,有效地提高了去噪性能。仿真实验表明,去噪后的图像克服了常见的伪吉布斯现象,与当前一些图像去噪算法相比较,其客观评价指标PSNR以及去噪后图像的主观视觉效果都有明显的提高和改善,且
提出了一种新的基于小波变换和神经网络的数字水印算法。该算法首先把原始图像分成8×8像素的小块,根据Logistic映射产生的混沌序列选择相应的小块构造一个原始图像的子
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支
面向服务软件异常处理的开发工作量大且程序逻辑复杂。若只在设计阶段后期或是编码阶段考虑异常处理功能的开发,则可能由于没有充分、完整、系统地考虑待处理的异常而严重影
移动对象轨迹数据管理是移动计算领域的研究热点。通过采样技术构造数据流摘要是普遍采用的方法之一。传统的均匀采样往往容易丢失某些关键变化数据。利用轨迹数据流的局部连