基于Actor-Critic的融合算法在经典控制问题中的性能研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:myg3801403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习算法的研究在越来越多的领域取得了重大突破,然而大多数情况下,针对一个任务训练出来的模型在新任务中的表现并不好。元学习理论指出,深度学习模型可以利用先验知识获得在新任务中较快学习的能力,结合强化学习则称为元强化学习。本文基于Actor-Critic算法,先探究由动作价值网络、状态价值网络构建的Double-Critic模型在相同任务和其它近似任务中的性能表现,并对结果进行分析。随后将该模型和任务编码器相结合,构建Meta-Critic模型,使用不同的策略网络在不同的任务中对该模型进行训练后得到一个预训练的元模型。当给定新的任务时,元模型中的动作价值网络可以当做一个预测网络,策略网络在Agent做出决策前,根据预测网络提供的动作价值计算下个状态价值的期望并更新当前策略,从而以最快的速度对新任务进行探索并收敛到最优策略。模型中动作价值网络损失函数的目标值由状态价值网络给出,这种方法使Meta-Critic模型的更新过程不依赖策略网络对动作的预测,进一步提高了模型调整过程的稳定性。最后使用该模型和其它算法,分别在多个新任务中进行测试来对比它们在新任务中的性能表现。最后的实验结果表明,该模型在新任务中的性能表现较好,这说明Meta-Critic模型通过对已有任务的学习,具备了在新任务中对策略网络进行有效指导的能力。同时期待该模型能够结合离线学习算法思想,达到对已有数据的充分利用,从而使预训练过程更加快速稳定。
其他文献
学位
特发性肺纤维化(Idiopathic pulmonary fibrosis,IPF)是一种病因不明的慢性、进行性呼吸系统疾病,目前临床上尚无有效的治疗手段。研究表明,成纤维细胞的过度活化和增殖是肺纤维化发生的直接原因,而肺间充质干细胞是纤维化肺组织内成纤维细胞的主要来源。在肺间充质干细胞向成纤维细胞分化过程中,肺间充质干细胞所处的炎症微环境起到了重要的调控作用。炎症微环境是由多种炎症因子参与形成的
背景与目的目前,肺癌的发病率和死亡率位居我国甚至全球恶性肿瘤的第一位,其中非小细胞肺癌占了四分之三的领域,近年来,外科切除、放化疗、免疫药物等各种手段取得了日新月异的进展。尤其是化疗和各类免疫药物的联合治疗,成为肺癌治疗的新兴热门,同时也成为肺癌届的研究焦点,但其协同作用的可能机制尚不清楚。此外,给予患者联合用药时,其安全性一直是临床医生主要关注的问题。因此,探索最佳化疗间隔周期及安全且有效的化疗
Micro-LED具有功耗低、效率高、集成度高、体积小、尺寸小、器件电容小、可承受的工作电流密度高等优点,在显示、光通信和植入式生物医疗等领域有巨大的应用前景。相比于传统照明LED,Micro-LED不仅仅是尺寸的缩小,其在发光效率、载流子复合寿命、热效应等方面的特性也有所不同,需要进一步深入的研究。本论文针对Micro-LED的效率提升、发光机理、结温对光电特性的影响等科学问题,系统地开展了外延
学位
本文结合现有的深度Q值网络,在量子特性的启发下,深入研究了深度强化学习算法的经验回放机制,提出了量子启发的深度强化学习经验回放机制(Deep Reinforcement Learning with Quantum-inspired Experience Replay,DRLQER)。与传统的深度强化学习经验回放机制不同,本文提出的DRL-QER算法自适应地根据经验的复杂程度以及其已经被回放的次数来
学位
学位
改革开放至今,我国城镇格局演变以增量外扩模式为主,在此过程中,占用了大面积优质耕地。此外,以交通为主的基础设施建设,引发了耕地景观碎片化。而优质耕地资源与城镇建设空间重叠的空间格局,进一步增加了水土污染等耕地质量下降隐忧。因此,如何协调耕地保护与区域经济社会发展关系,实现可持续发展,已成为国土空间治理亟需解决的关键问题。当前耕地保护研究多立足于土地资源管理视角,对于农业生产供需关系未有充分考量。而