面向信息物理系统的高效深度强化学习算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：scenery747

【摘要】

：

【作者】

：

邹启鸣

【出处】

：

哈尔滨工业大学

【发表日期】

：

2020年02期

【关键词】

：

深度强化学习采样效率模型预测控制信息物理系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习算法是机器学习的一个重要分支,主要研究如何利用智能体与外界环境的交互数据学习完成特定任务的控制策略。由于强化学习算法要求模型能够表征高度复杂的策略,因此利用表现力极强的深度神经网络作为策略表征的深度强化学习算法逐渐成为主流。虽然深度神经网络较大的参数空间使得深度强化学习算法掌握高度复杂的技能成为可能,但是这也使其学习过程需要大量的交互数据才能够达到良好的学习效果。深度强化学习算法的采样低效问题在信息物理系统中尤为严重。在信息物理系统中,智能体与环境的交互速度十分缓慢。同时,在训练过程中,次优的策略所做出的随机性较大的动作可能损坏机体。因此,信息物理系统中的交互数据是十分昂贵的。文主要研究如何提高强化学习算法的采样效率,进而减少强化学习算法对交互数据的高度依赖。文将深度强化学习算法与传统的最优控制理论结合,在避免传统方法的局限性的同时,提高深度强化学习算法的采样效率。具体而言,文从提出新的初始化策略与目标任务分解这两个思路来尝试得到高效的深度强化学习算法。在第一个工作中,我们提出一种基于模型预测控制器的初始化策略。模型预测控制器质上是一个有约束的最优化问题,可以被理解为一个隐式的策略。在课题中,我们使用多参数规划方法,将模型预测控制器转化为一个完全等价的分段线性函数。这样的操作相当于将模型预测控制器转化为一个显式的、参数化的策略。进一步地,我们将该分段线性函数转化为深度神经网络。不同于模仿学习普遍采用的监督学习方式,我们提出的方法可以直接对神经网络的权值进行赋值。基于这种初始化方法,现成的深度强化学习算法可以直接在模型预测控制的控制性能基础上进行微调。由于神经网络的初始性能与模型预测控制器完全一致,因此文提出的初始化策略可以帮助智能体在良好的初始解附近搜索,极大地提高算法的收敛性能和采样效率。在第二个工作中,我们将基于模型预测控制的初始化策略与目标任务分解进行结合。基于模型预测控制的初始化策略虽然能够提高采样效率,但是其性能在一定程度上受到原始模型预测控制器的影响。之前的研究表明,模型预测控制器并不是在任何任务下都可以表现出良好的性能。为此,文构建了一个自适应子任务生成模块,即强化学习算法并不是直接要求智能体掌握复杂技能,而是考虑模型预测控制器的性能,将目标任务分解为一个由易到难的子任务序列。具体而言,子任务生成模块会选择对于模型预测控制器较为容易的初始子任务进行训练,之后随着策略性能的提升不断提高子任务的难度,最终帮助智能体完成复杂的目标任务。为了验证算法的有效性,我们在不同的仿真实验平台上对算法进行了测试。除了常用的强化学习测试环境OpenAI Gym,我们还利用仿真软件搭建了不同的测试环境,如四旋翼无人机、城市交通路网等。实验结果表明,基于模型预测控制的初始化策略能够帮助强化学习算法迅速收敛到较好的局部最优解。同时,通过与自适应子任务生成模块结合,基于模型预测控制的初始化策略能够帮助强化学习算法在不同测试环境下均取得良好的采样效率与收敛性能。

其他文献

胰岛B细胞功能的评价方法——内分泌代谢疾病(11)

1 引言胰岛B细胞功能的狭义定义是指B细胞在葡萄糖刺激下分泌胰岛素以维持血糖水平稳定的功能.广义定义则是指B细胞在葡萄糖及葡萄糖以外的因素,如:在精氨酸、胰高血糖素、化

期刊

胰岛B细胞功能B细胞胰岛素胰岛素分泌功能血糖

四川省城市老年人社会支持状况及其与抑郁相关性

目的研究四川省城市老年人社会支持状况及其与抑郁相关性。方法使用自编基本情况调查量表、社会支持评定量表（SSRS）和简版老年抑郁量表（GDS-15）进行问卷调查。结果不同年龄、文化

期刊

社会支持抑郁

基于绿色智能理念的医院建筑规划设计

绿色建筑好比是计算机的硬件,而智能化就是软件,有了软件计算机才能高效运转.绿色智能建筑对规划设计提出了更高更新的要求.文章概述了绿色智能建筑的概念、内涵和建设意义,

会议

医院建筑规划设计节能降耗绿色智能理念

市政给排水管道工程施工中的常见问题及防治措施

众所周知,现如今在市政建设工程中,给排水管道工程是十分重要的,它不仅可以满足城市居民等的用水需求,还可以进行很好的排水。但是,目前在很多市政给排水管道工程施工中存在

期刊

市政给排水管道工程常见问题防治措施

单纯收受财物行为的犯罪化考量

"单纯收受财物行为"是危害严重的腐败现象。基于严密受贿犯罪的刑事法网、严格区分贪污罪和受贿罪、科学界分公务活动和非公务活动、与国际社会立法接轨等理由,单纯收受财物

期刊

单纯收受财物受贿犯罪权钱交易为他人谋取利益立法修改

浅谈幼儿自主性的培养

日常生活中，很多幼儿都喜欢自己的事情自己做，自己吃饭、穿衣、洗澡。甚至成人烧饭、洗衣，幼儿都想插一手，他们跑来跑去，忙个不停，很多时候是在为成人“帮倒忙”。从心理角度讲，这是

期刊

幼儿期

略述罗朗·巴尔特的符号学

一远在十七世纪,英国哲学家洛克在他的《人类理解力论》的最后一段(Ⅳ,21,4)里就用了 semiotica 这个词,意指“符号的理论”。他认为符号论的任务在于考察符号的性质。人的

期刊

符号学索绪尔基本概念巴尔特

蟛蜞菊化感作用的初步研究

以蟛蜞菊[Wedelia chinensis（Osbeck）Merrill]地上部分的二氯甲烷提取物为化感物质，初步研究了蟛蜞菊对萝卜种子萌发和稗草幼苗生长的化感作用。结果表明：蟛蜞菊对萝卜的种子萌发

期刊

化感作用他感作用蟛蜞菊

疫情防控要处理好三个关系

当前，一系列强有力的“中国行动”取得重要进展，增强了国人战胜疫情的信心。然而，我们应当清醒地看到：疫情依然严重，任务依然艰巨，疫情防控工作还面临诸多挑战和问题。正确处理好以

报纸

武汉市创建环保模范城市环境质量指标空气污染指数(API)达标的可行性分析

根据《"十一五"国家环境保护模范城市考核指标及其实施细则》中空气污染指数(API)指标标准,分析2007～2009年武汉市建成区空气污染指数(API)的变化,结合武汉市建成区空气污染的

会议

环境保护模范城市空气污染指数评价指标污染防治

面向信息物理系统的高效深度强化学习算法

与本文相关的学术论文