分布式策略梯度算法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:y317145569
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习通过智能体与环境之间的相互作用,智能体以从环境中得到的回报作为评价依据,反复学习获得最优决策,它是实现高级人工智能的有效方法之一。目前,众多领域涉及大规模的强化学习问题,其状态空间和动作空间是连续的,需要多个智能体交互,共同完成序列决策任务,基于单智能体的集中式强化学习架构无法有效地解决此类问题。策略梯度方法对于连续的状态空间和动作空间,可以直接输出所采取动作的概率,快速生成最优策略。但是由于目标函数的非凸性,数据集的无限性,采样数据分布的不稳定性等多种原因,算法收敛速度缓慢。因此,分布式策略梯度算法有待进一步研究,改善算法收敛性能,提高收敛速度是需要完成的目标。基于以上分析,本文研究工作如下:1.为了多个智能体能够在多个环境中尽快找到全局最优策略,提高分布式策略梯度算法的收敛速度,基于多任务强化学习环境,提出了一个基于动量的分布式策略梯度算法。该算法旨在训练每一个智能体在各自的环境中找到一个局部最优策略,同时,智能体之间共享局部最优策略参数;并且结合动量方法,修正梯度下降方向,采用固定步长更新策略参数。在探索自身环境和适应其他智能体的环境之间达到平衡,最终生成一个全局最优策略,获得更多的长期累积回报。2.为了多个智能体能够在一个环境中尽快找到全局最优策略,提高分布式策略梯度算法的收敛速度,基于多智能体强化学习环境,提出了一个基于动量和重要性采样技术的分布式自适应策略梯度方法。该算法旨在训练多个分散的智能体在一个共同的环境中寻找局部最优策略,与中心智能体交互实现信息共享。结合动量方法,修正梯度下降方向;利用重要性采样权重,减小不同采样轨迹造成的偏差;并且采用自适应步长更新策略参数,实现步长和动量衰减系数随着梯度大小自我调整。最终生成一个全局最优策略,最大化全局长期累积回报。本文面向分布式强化学习问题,从两种不同的智能体交互机制入手,提出了两个分布式策略梯度算法,通过改进梯度以及步长,改善了策略梯度算法的收敛性能。并对其进行理论分析及实验验证,结果证明了本文所提算法的高效性。
其他文献
背景:胃癌是全球重大公共卫生问题,是严重威胁人类健康的一大难题,中国每年因胃癌死亡的人数占全球总人数的40%以上。胃癌的治疗方式多种多样,选择最佳治疗方式对患者来说意义重大,胃癌治疗方式的选择主要取决于患者确诊胃癌时的具体情况,主要包括肿瘤病灶本身对胃壁的浸润情况、淋巴结转移情况和远处转移情况。对于早期胃癌常选用手术治疗,而临床最常用的手术方式为全胃切除联合D2淋巴结清扫。大多数早期胃癌患者并不会
学位
背景:食管癌是全球范围内一种常见的恶性肿瘤,我国为食管癌的高发国家。外泌体miRNA是近些年肿瘤研究的热点问题,多种细胞在生理及病理状态下均可分泌外泌体,相对于正常机体细胞而言,恶性增殖的肿瘤细胞所释放的外泌体数量显著增加,且其内容物的种类和数量也显著异于正常机体细胞所释放的外泌体。miRNA作为一种特殊的RNA,已有研究表明其在肿瘤发生过程中可能扮演着致癌基因或肿瘤抑制因子的角色,而miRNA并
学位
目的:检测赖氨酸甲基转移酶2D(KMT2D)在膀胱癌中的表达水平与临床病理特征的关系及KMT2D对膀胱癌细胞增殖和侵袭的影响。方法:免疫组化实验和q RT-PCR实验分别检测膀胱癌组织和癌旁组织中KMT2D蛋白和m RNA表达水平。根据免疫组化评分将患者分为KMT2D低表达组和KMT2D高表达组,比较两组患者的临床病理特征。蛋白免疫印迹实验检测膀胱癌细胞5637、T24、TCCSUP和正常膀胱上皮
学位
背景:食管癌是发生在食管上皮组织的恶性肿瘤,是世界上最常见的消化系统恶性肿瘤之一,食管鳞状细胞癌是食管癌的主要亚型。食管癌早期诊断意义重大,然而,控制食管鳞癌发生发展的分子机制尚未完全阐明,食管上皮癌变是多因素、多阶段、多基因改变参与的发病过程,其中有很多分子生物学方面的改变,这其中可能存在检测早期癌变的标志物。WGCNA可以通过在高通量数据中识别功能相关或表达相似的基因成分,从整体生物学功能出发
学位
目的:针刺治疗呃逆疗效及安全性的系统性评估。方法:通过万方数据库、知网数据库系统、维普信息数据库系统、Pub Med数据库系统、Web of science、Embase数据库,收集关于针刺治疗呃逆的随机对照研究资料。根据纳入标准和排除标准,对文献进行了严格的筛选,并对其进行了风险偏倚和质量评价,并提取相关数据。数据分析使用Review Manager5.1进行,包含异质性检验,Meta分析,发表
学位
背景:具核梭杆菌(Fusobacterium nucleatum,Fn)为革兰氏阴性无芽孢厌氧杆菌,是一种条件致病菌,常在口腔、生殖器、胃肠道和上呼吸道中被发现。多项研究结果表明Fn与结直肠癌(colorectal cancer,CRC)、口腔癌(mouth cancer)、胃癌(gastric cancer)等多种癌症的发生和发展有关。一些基于免疫组织化学和基因扩增等检测技术的报告表明Fn感染也
学位
<正>近日,中共中央、国务院印发了《成渝地区双城经济圈建设规划纲要》,并发出通知,要求各地区各部门结合实际认真贯彻落实。规划纲要对成渝地区双城经济圈建设的战略定位是,尊重客观规律,发挥比较优势,把成渝地区双城经济圈建设成为具有全国影响力的重要经济中心、
期刊
背景:我国食管癌发病率较高,且以食管鳞癌(esophageal squamous cell carcinoma,ESCC)居多。目前治疗ESCC的方法日益更新,但患者生存率仍很低。研究证实,大量病原微生物可感染并定植于机体,通过对肿瘤微环境进行重塑,促进肿瘤发生及恶性进展。尽管现阶段对其具体机制尚不明确,但对病原微生物进行有效清除,有助于控制肿瘤的发生和恶性进展。本团队前期研究已证实,具核梭杆菌(
学位
背景:在世界范围中,乳腺癌是女性健康第一大威胁。我国第作为世界大国,乳腺癌发病率位列全球第二。阿帕替尼(Apatinib)通过血管内皮细胞生长因子受体2(Vascular Endothelial Cell Growth Factor Receptor-2,VEGFR-2)来抑制MAPK/ERK或PI3K/AKT通路信号传导,进而影响乳腺癌的生长增殖及侵袭转移。PD-L1在肿瘤细胞上通过下游信号通路
学位
分数阶系统在控制领域研究中具有重要地位,相比于整数阶系统,它能够更加精确地描述系统的动力学特性。同时因为现实生活中非线性和切换普遍存在,作为分数阶系统的重要分支,分数阶非线性系统和分数阶切换系统引起了许多研究者的关注。然而由于非线性的多样性和切换的复杂性,相关系统分析与控制的理论体系尚不完善。对于分数阶系统,在递增二次约束(Incremental quadratic constraints,δQC
学位