基于奖励塑形的强化学习研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:baiqing001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要方法论之一,其在智能体与环境之间的交互过程中通过学习值函数或者策略达到回报最大化以实现特定目标。强化学习已经在机器人、围棋、游戏智能等各个方面得到广泛应用。但是在强化学习算法中,也存在诸多问题,比如奖励函数的设计困难、训练效率低下以及训练过程稳定性不高等。本文从奖励函数出发,基于奖励塑形开展相关研究,针对现阶段强化学习算法中存在训练效率低下以及稳定性不高的问题,提出了一个基于奖励塑形驱动的理论优化框架。该框架能够在原有奖励函数的基础上进行塑形,使得塑形过后的奖励函数在后续的强化学习算法中实现同时兼顾训练效率以及训练稳定性,以期能够从理论与实践上引导与优化强化学习的训练过程,从而显著提高其训练效率与稳定性。本文研究内容的主要贡献如下:针对奖励塑形中势能函数难以选择与确定的问题,本文提出了一种基于李亚普洛夫稳定性分析的奖励塑形方法,将强化学习的理论框架转换为控制优化问题,从李亚普洛夫稳定性分析角度出发,推导出具有理论保障的势能函数的确定方法,从而提高强化学习的学习效率,加快训练过程。同时本文也通过随机逼近理论给出了所提方法的收敛性证明。进一步,本文也在3个离散动作环境以及3个连续动作环境中验证了所提方法能够大幅度提高训练效率。针对强化学习训练过程中频繁出现的奖励震荡的问题,本文通过研究奖励轨迹的统计属性,提出了一种基于奖励轨迹方差减少的奖励平滑塑形方法,从理论上降低奖励轨迹的方差并且通过随机逼近理论推导出其理论性保障,从而提高强化学习的训练稳定性,显著提高其可应用性。同时本文也在3种算法以及4个连续控制任务的标准集上验证了所提方法能够提高训练稳定性。为了同时兼顾强化学习算法的训练效率以及训练稳定性,本文提出了一种基于期望最大化的奖励塑形融合方法,通过期望最大化算法辨识隐变量的方式辨识出最优的超参数组合,降低调参成本。该方法采用奖励融合的方式,实现强化学习训练过程中学习效率性与稳定性之间的兼顾,从而实现对强化学习训练过程的优化。本文在多个标准集上验证了所提出的优化体系能够显著提升其训练效果,并且计算复杂度仅为网格化搜索方法的2%。为了验证所提方法的实际应用有效性,本文构建了一个8自由度机械灵巧手操作软硬件平台,并搭建了仿真环境。基于所提出的奖励塑形理论优化框架,开展8自由度机械手灵巧操作的研究。通过在仿真环境Pybullet中构建训练体系,使用域随机化的方式将仿真环境中训练的策略迁移到真实机械灵巧手操作中,实现机械灵巧手阀门连续转动任务。该实际落地应用很好地验证了所提出的框架的有效性以及其对于强化学习规模化落地应用的重要示范意义。本文在总结中对全文进行了归纳,阐明了所提出的理论框架能够在原有奖励函数的基础上进行塑形,使得塑形过后的奖励函数在后续的强化学习算法中实现同时兼顾训练效率以及训练稳定性,从而大幅度提高了强化学习算法的实用性与可适用性。同时本文对如何深入挖掘和剖析奖励函数对于强化学习算法的影响和作用进行了展望,从而建立更加通用的理论框架。
其他文献
废轮胎是一种产量巨大的城市固体废弃物,亟需资源化处理利用。热解能规模化处理废轮胎,同时生成大量热解焦。本文创新双金属盐热处理高硫废轮胎热解焦制备硫掺杂多孔碳材料,主要研究内容与结论如下:作为热解过程最关键的参数,温度将显著影响废轮胎热解焦结构。因此,首先分析了不同温度下的废轮胎热解焦结构及其对活化制备硫掺杂多孔碳材料(活化焦)的影响。结果表明:随着热解温度从400℃升至1000℃,无序碳骨架朝有序
学位
内部缺陷识别是航空钛合金铸件质量检验的关键环节,直接影响着航空发动机等重大装备的服役性能。当前,航空钛合金铸件内部缺陷识别多由人工在暗室中通过目视完成,高强度工作量易使工作人员的身心状态发生波动,以及不同人员的经验和专业水平存在差异,都会导致缺陷识别的可靠性、稳定性得不到保障,甚至影响飞行器的安全性。采用深度学习与数字X射线图像驱动的航空钛合金铸件内部缺陷自动识别是发展趋势。然而,航空钛合金铸件数
学位
催化燃烧是一种极具潜力的低浓度气体污染物氧化脱除技术,其中高性能催化剂是实现较低温度下污染物完全净化的关键点之一。火焰喷雾热解法是一种合成纳米颗粒催化剂的先进方法,其所展现出的优良特性为制备钙钛矿氧化物以及负载型催化剂带来了新的机遇。本论文针对常见的几类气体污染物(甲烷、一氧化碳、甲醛、甲苯),利用火焰喷雾热解法一步合成高效的纳米钛基催化剂,并结合原位傅里叶红外光谱和密度泛函理论计算详细研究了催化
学位
表面微放电具有化学反应丰富、产物多样、处理面积大等特点,因而被广泛的应用到诸多领域中。表面微放电的产物模式转换规律以及开发低成本快速在线模式识别方法是其在实际应用中面临的关键问题。表面微放电的不同产物模式适用于不同的应用场景,应用表面微放电首先需要确定其产物模式,然而目前对表面微放电的产物模式转换规律研究不足,缺乏对表面微放电的放电特性的深入认识。同时,传统的表面微放电产物模式识别方法存在检测成本
学位
我国淡水资源存在人多水少、时空分布不均、供需矛盾突出等问题,资源型缺水、发展型缺水已严重制约我国生态文明建设与经济社会可持续发展。人工降雨技术能直接提高大气水资源利用率,有效缓解我国水资源短缺问题。传统降雨技术对自然条件要求苛刻,需要的温湿度等气象窗口窄,作业效率较低。带电粒子催化降雨技术作为一种新型的人工降雨技术,具有应用窗口条件宽、成本低、无需化学工质等优点,近年来受到气象界关注。然而,该技术
学位
随着5G移动通信网络的大规模部署,无线设备数量与通信设施能耗的矛盾日益突出,以通信收发两端为主要研究对象的传统能耗控制技术的发展渐入瓶颈。近年来,以智能反射面(IRS)为代表的信道增强技术成为研究热点,其通过调整反射面集成的大量反射单元的相移参数实现多径信号相长、增强收发机间的等效信道。以无线能量传输供能的IRS,不但可以显著缓解无线通信系统的能耗,而且无需新增专用的供能设施,可以视为解决新一代移
学位
伺服驱动系统是自动化设备中的核心执行部件,被广泛应用于工业机器人、汽车制造、芯片测试等领域。虽然伺服驱动系统具有定位精度高、响应速度快的特征,但随着这些领域对加工精度、生产效率的要求日益提高,基于位置响应的伺服驱动系统优化成为当前学术和工业界的关注热点。本文从伺服系统力矩、速度和位置的环路控制模型出发,分别研究了提升位置响应的力矩纹波抑制、速度环鲁棒控制和位置环优化控制等,并通过现场可编程门逻辑阵
学位
多智能体系统一致性问题作为分布式协同控制最基础且最重要的问题之一,受到了不同领域学者的广泛关注。一致性的相关理论被广泛应用于工业实践和网络科学领域,例如:多卫星姿态控制,多无人机编队控制,交通网络,社交网络等。另一方面,由于物理条件的约束,输入饱和现象在实际工程应用中十分常见。若不针对输入饱和现象采取合适的控制策略,往往会引起系统控制性能降低,甚至导致系统失稳,造成严重后果。因此,对输入饱和多智能
学位
KCNMA1基因编码一种大电导钙离子敏感的钾离子通道(简称BK通道),该通道受到细胞膜去极化和细胞内钙离子的双重调节。BK通道在神经系统和平滑肌细胞表达丰富,参与神经递质释放以及平滑肌收缩和舒张。2005年首次将KCNAM1基因功能获得型(Gain-of-Function,GOF)突变p.D434G与全身性癫痫和阵发性运动障碍(co-existant Generalized Epilepsy an
学位
随着我国服务经济的发展,为了获得可持续的竞争优势,服务型企业往往信奉“顾客上帝论”,要求员工主动提供高质量的服务,甚至尽最大努力去取悦顾客。这种顾客特权感无疑增加了员工的工作负荷,也使得其处于弱势地位,更容易遭受顾客的不当行为。由于顾客不当行为的普遍性,越来越多的学者关注到这一现象,并探讨了其对员工行为的负面影响和有害后果。尽管学者们开展了一系列研究,但仍存在一些局限。首先,现有研究多探讨顾客不当
学位