基于Actor-Critic框架的策略探索性能研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xujiaaiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习算法是用于解决序贯决策问题的一类算法,与深度学习算法的结合推动了强化学习算法的发展。智能体通过与环境交互,增加对环境的认知,然后根据这些认知执行动作。“探索”是智能体在与环境交互过程中放弃当前最优行动,并通过执行其他行动增加对环境的认知以求获得长远利益的行为方式。提高所得策略的探索性能是强化学习算法面临的一个很大的挑战,而高效探索对智能体学到最佳策略起着关键性的作用。常用的提高探索性能的算法有乐观探索,不确定性优先探索、基于概率匹配的探索、基于信息熵的探索等。早期,这些算法是在多臂赌博机这一不包含状态空间的场景下提出的。之后,这些算法被推广到动作空间离散的马尔科夫决策过程中。本文旨在设计一种适用于动作空间连续的场景的策略探索性能良好的强化学习算法,用于求解如机器人控制这类包含多个自由度的系统中相应问题的策略。本文的算法包含策略网络actor和策略评估网络critic,通过交替训练这两个网络来得到最终的策略。本文基于概率匹配的思想构造了策略评价指标η(·),并在贝叶斯统计推断的理论框架下证明了最小化贝叶斯推断损失与最大化critic网络参数的后验概率的等价性。从而将策略评价指标与概率分布联系起来,成功将基于概率匹配的提高策略探索性能的算法推广到动作空间连续的场景中。为了保证概率模型的灵活性,本文引入嵌套流模型拟合概率分布,并通过最小化能量函数更新随机网络的参数。这进一步提高了算法所得策略的探索性能且有助于跳出局部最优解,得到更好的策略。同时,本文提出的探索算法不仅适用于状态空间为位姿向量的场景也适用于状态空间为图片的场景。经过实验验证,本文的探索算法在包含多个自由度的复杂系统中可取得较高的平均回报。在Bipedal Walker Hard Core-v2和Ms Pacman No Frameskip–v4这两个仿真环境中,本文的算法效果超过了通过在输出策略上加随机扰动来达到探索目的的著名的TRPO算法。
其他文献
在经济发展过程中,零售行业占据着第三产业内的重要地位,它的未来着眼点目前在于如何在新时代新市场新经济形势变化下,将传统零售的模式与思维转化为智慧零售,但这不仅仅意味着机会还带来了风险。零售行业有着天然的薄利多销特质,销售情况受强政策、竞争环境的影响,一旦营业规模有所下降,企业的成本费用水平却居高不下,则会带来严重的负债,长期未改善将引发财务危机。BQ公司由于一方面正顺应零售业发展趋势处于战略变革期
“双减”背景下,语文教学面临重大变革,尤其是语文作业管理和课后管理。课后托管是关系到学生健康成长和千家万户切身利益的民生工程,是解决家长后顾之忧的重要举措。我们将作业设计与课后管理进行有效结合,并致力于优化现有语文作业内容,在激发学生完成作业的热情的同时,也丰富了课后管理的形式,充盈了课后管理的内涵,确保了学生在校内学足、学好。
产品创新是企业获取和保持竞争优势的重要手段,为支持企业产品创新的开展,需构建产品创新路径。基于模块化视角考虑产品创新过程,可将其划分为产品现状分析、产品模块划分、产品创新机会识别、产品创新设计等过程。在此基础上,引入相关创新理论与方法,构建一个集创新过程、创新理论、创新方法于一体的产品创新路径。最后以大型客机装配生产线为例,通过其创新过程验证了该产品创新路径的可行性和有效性,表明该产品创新路径能够
近年来,通信系统的更新换代速度非常迅速,在第七届世界军人运动会上,5G通信已经开始崭露头角。滤波器作为通信系统中的关键的选频器件,对通信系统的性能好坏起着决定性作用。双通带滤波器,其具有两个可以同时工作的通带,可以满足5G通信系统的大容量、多频段通信的需求,因此获得了国内外学者的青睐。做为波导与微带线的完美的结合体,基片集成波导表现出高的功率容量和低的损耗,因而被广泛地应用于各种滤波器的设计。本论
谐振子作为物理学的经典模型,在物理学的各个领域均得到发展。近几年,在广义不确定原理和弯曲时空背景下谐振子的研究逐渐成为热点。本文就广义不确定原理及Som-Raychaudhuri时空下谐振子模型研究进行了两部分内容的讨论:·研究了广义不确定原理下DKP谐振子和含线性势的DKP谐振子。通过广义不确定原理下动量和坐标的转化得到了DKP谐振子的表达式,使用合流超几何方程确定了体系的能级,并借助数值分析对
偏微分方程及其最优控制理论在金融、物理、地震学等领域有着广泛的应用.近年来,学者在确定型偏微分方程最优控制理论相关研究方面取得了许多成果.然而,由于现实环境处于不断变化的过程中,这使得在具体求解问题时会受到随机因素的影响,确定型偏微分方程最优控制问题模型显然已经无法准确的描述现实问题.因此,随机最优控制问题及其理论分析成为了当前的研究热点.本文针对扩散项带随机系数的抛物方程最优控制问题的数值求解,
近年来,猪场发生细菌病问题越来越突出,在排污水中检测到大量的细菌存在,由于用药不合理和管理不规范,部分养猪场使用广谱药物进行细菌病防治,使得细菌耐药菌株增多,耐药性越来越复杂,不但对猪场环境造成污染,也会对细菌病的临床用药防治带来困难,同时制约养猪业的健康发展和影响公共卫生安全。本研究首先对贵阳市花溪区5个规模化养猪场主要疫病进行调查分析,其次对猪场排污水进行细菌分离鉴定、致病性和主要分离菌的耐药
蒸汽不但是一种利用率较高的清洁能源,而且对稠油热注开采等行业的作用也较大,其质量流量的计量准确与否对降低蒸汽的质量管理成本和提升生产效率均有极大影响。如何研究稠油井环境下蒸汽流动的动力学特性,探讨油井出口端的蒸汽质量流量计量算法,已成为稠油企业及相关研究人员关注的重要难题。为此,本文在综合考虑蒸汽流量计量中涉及的蒸汽液化、热量损失、设备成本、测量环境限制等因素下,以质量流量计量的准确率为性能指标,
近年来,基于大环(例如环糊精、杯芳烃、瓜环及柱芳烃等)和纳米材料(如石墨烯,g-C3N4,金属纳米等)制备的复合材料现已用于各种领域,尤其是超分子传感器领域,该复合材料结合了大环及纳米材料的优点,改善灵敏度和选择性。因此本论文构建了化学传感器,主要用于检测敌草快和氯霉素。通过原子力显微镜(AFM),红外光谱(IR)和拉曼光谱的全面表征,合成了Benzo[6]uril杂化氧化石墨烯复合物,将该复合物
随着分布式能源渗透率的提高以及高品质负荷日益增加,对网源荷协同控制的技术需求日趋迫切。然而,传统配电网的“闭环设计、开环运行”结构不能友好接入大规模分布式能源,难以满足重要负荷的高可靠性供电需求。柔性互联配电网作为一种新形态的供电结构,不仅可以形成闭环供电的新模态,而且提供了配电网层面的源荷协同技术平台。本文以柔性互联配电网的核心装备——柔性多状态开关(Flexible Multi-State S