【摘 要】
:
强化学习是一种基于试错机制的机器学习算法,其主要用通过求解最大化累计奖励函数的方式来获取最优策略。随着机器人、电子、通讯等技术领域的快速发展,系统的结构和动态特性变得越来越复杂。一方面,建立精确的系统模型往往耗费巨大,甚至是不可能实现的。另一方面,即使获取了精确的数学模型,其形式往往也是十分复杂的,这给之后的系统分析与控制器设计带来了巨大困难。因此,不依赖于系统模型的强化学习方法在解决上述问题方面
论文部分内容阅读
强化学习是一种基于试错机制的机器学习算法,其主要用通过求解最大化累计奖励函数的方式来获取最优策略。随着机器人、电子、通讯等技术领域的快速发展,系统的结构和动态特性变得越来越复杂。一方面,建立精确的系统模型往往耗费巨大,甚至是不可能实现的。另一方面,即使获取了精确的数学模型,其形式往往也是十分复杂的,这给之后的系统分析与控制器设计带来了巨大困难。因此,不依赖于系统模型的强化学习方法在解决上述问题方面具有优势。近年来,虽然强化学习已经在许多领域取得了阶段性的重要成果,但是在处理带有复杂输入约束的非线性系统最优控制问题上,仍存在着一些关键问题亟待解决。例如,如何处理多项式形式的输入约束;如何处理非静态的输入约束;如何在不改变原有奖励函数的前提下获取满足约束要求的控制策略;如何证明学习算法的收敛性和最终策略的最优性。此外,研究如何利用输入约束来指引策略的探索过程也是具有理论意义和实际价值的。在实际应用场景中,智能体通常会对训练过程的安全性有着极高的要求。此时,人为地设定合理的强化学习探索范围将有助于智能体实现安全高效的探索。本文基于现有的强化学习框架和理论分析手段,面向输入受限系统的最优控制问题和带有约束指引的强化学习探索机制,结合实际场景的应用问题展开研究。本文的主要贡献如下:(1)提出了一种基于平方和规划的强化学习框架,解决了一类带有输入约束的非线性系统最优控制问题。输入约束普遍存在于各类实际的控制系统中。然而,现有的控制方法主要针对的是输入饱和约束问题,而对于实际系统中存在的控制量变化速率约束、控制量加和约束以及上述约束的组合等复杂约束问题,则缺少有效的控制方法。针对上述问题,首先设计了基于平方和形式的评价网络,将评价函数表示为关于控制输入的多项式形式。然后,引入了 Lasserre松弛法,将策略提升环节中求解控制输入的过程松弛为一个有约束的凸优化问题,并采用原始-对偶的方法获取当前时刻下满足约束要求的近似最优输入。针对强化学习在线训练不稳定的问题,引入了软更新机制和经验回放技术,通过放缓的网络更新速率、降低样本内在关联性以及提高样本重复利用率的方式来确保在线训练过程的稳定性。在理论层面上,分析了带有软更新机制的迭代算法收敛性和策略最优性,揭示了不同折扣因子和初始化估计函数对算法最终收敛结果的影响。最后,通过四个数值仿真实验分别验证了理论分析的正确性和算法的有效性。(2)提出了一种基于动作映射机制的确定性策略梯度算法,解决了带有状态依赖输入约束系统的最优控制问题。现有的控制策略通常需要假定输入约束为恒定不变的,要处理动态变化的输入约束存在较大困难。针对上述问题,设计了满足状态依赖输入约束的策略空间与满足输入饱和约束的策略空间之间的对应方法,即动作映射机制。然后,基于该机制将原始的最优控制问题等价地转换为便于求解的带有输入饱和约束的最优控制问题。最后,采用确定性策略梯度算法来求解最优的控制策略。受限于输入约束的具体形式,策略空间之间的对应关系以及相应的动作映射并不总是存在的。针对该问题,进一步分析了动作映射存在的充分必要条件,并针对两种具有代表性的状态依赖输入约束情况,给出了动作映射具体的构建方法。状态依赖的输入约束还可能会导致评价函数变得不连续,进而影响神经网络对评价函数的精确拟合。针对上述情况,给出了一个可以确保迭代评价函数连续性的充分条件。通过对带有状态依赖输入约束系统进行仿真测试,验证了所提出算法的有效性。(3)提出了一种带有输入约束指引的强化学习探索机制。复杂的系统动态特性以及稀疏的奖励环境会导致智能体无法对策略的探索方向给出有效地判断,进而极大地降低强化学习算法的学习效率。此外,如果智能体在状态-动作空间上的危险区域进行探索,很可能会导致毁灭性的后果。针对上述问题,首先选定已有的控制效果较好的策略作为指引策略,并基于该指引策略对下一时刻策略的更新范围进行约束,避免策略在无意义区间或者危险区域上进行探索。然后,基于上述的动作映射机制,建立真实探索空间和虚拟探索空间之间对应关系,并结合确定性策略梯度算法求解在更新范围内的最优策略,最终实现对状态-动作空间上的安全高效探索。在理论层面上,基于状态-动作空间的紧致性和策略函数的单值假设,证明了迭代策略的一致收敛性。通过对线性系统和二自由度机械臂进行实验仿真,验证了提出的自适应探索机制的有效性。
其他文献
民营经济的发展牵动着经济发展的命脉,民营经济发展的好坏也直接反映了营商环境的优劣。"法治是最好的营商环境",应当加强民营经济营商环境的法治化,将民营经济发展全过程放入法律框架内。2020年1月1日正式施行的《优化营商环境条例》标志着国家治理体系中优化营商环境已成为核心要素之一,也从立方层面为民营经济的发展提供法治支撑。近年来,我国民营经济发展遇有阻力,作为其良好营商环境重要因素之一的法治建设仍面临
肌肉减少症(Sarcopenia,简称肌少症)是一种增龄性骨骼肌质量减少,伴有肌肉力量和身体功能减退的综合征,是严重影响老年人生活质量,提高老年人跌倒率和全因死亡率的慢性退行性疾病。来自欧洲和美国的研究结果显示,从50岁开始骨骼肌质量随年龄增加而减少,至80岁骨骼肌质量下降6.6%~23.3%。而中国人群的数据相对较少,鲜见中国大人群的骨骼肌衰减趋势数据。近些年,n-3多不饱和脂肪酸(Polyun
通过多个产业共聚而形成的产业集群综合体逐渐成为未来产业空间发展的重要形式,新时代下产业空间新形态正在不断突破传统行政边界,逐步形成以核心城市为枢纽、多城市产业协同发展的圈层化产业空间新格局。打造世界级城市群已经上升为中国中长期的国家战略,城市群是未来中国产业发展的主要空间载体与重要地理单元,城市群空间下的产业结构转型升级与产业高质量发展将是推动区域经济发展质量变革、效率变革、动力变革的重要抓手。本
红喉雉鹑Tetraophasis obscurus是我国特有高山雉类,国家一级重点保护野生动物。为了解其生活习性及种群参数,2020—2021年在四川王朗国家级自然保护区采用红外相机技术、样线法和样点法对红喉雉鹑的日活动节律及其种群密度进行了调查。红喉雉鹑在保护区分布海拔为2 773~3 777 m,主要活动在3 200~3 400 m,常见于针叶林和针阔混交林,未在草甸生境中记录到;核密度函数绘
高增益天线是毫米波和太赫兹无线系统必不可少的关键组件。随着毫米波太赫兹无线通信、射电天文、成像等的蓬勃发展,毫米波太赫兹天线不仅需要具有很高的增益和紧凑的轮廓,还需要具有较好的波束扫描能力。因此,高增益、高效率、小尺寸、多波束毫米波太赫兹天线已成为当前天线领域的研究热点。另外,由于毫米波和太赫兹波的波长很小,空间传输损耗很大,使得毫米波太赫兹高增益天线的精确测试面临诸多挑战,主要包括:1)毫米波太
21世纪以来,化石燃料过度使用不仅造成了环境污染,其日益枯竭更引发了能源危机。人们试图去开发和利用环境友好型的可再生能源来应对环境和能源问题。高效的储能技术才能支持这类可再生能源的大规模推广和应用。超级电容器有着大容量、高功率密度、高倍率性能和高安全性,是目前储能领域的研究热点之一。寻找高比电容和长循环使用寿命的电极材料是当前超级电容器发展的重点。金属有机框架(MOF)材料有着大比表面积以及均匀分
研究背景本课题组前期研究发现,饮用水中亚硝胺和藻毒素高暴露可能是淮安地区食管癌高发的重要原因,亚硝胺和藻毒素可以发挥协同作用,诱导食管癌发生。随着表观遗传学的迅速发展,环状RNA(circRNA)引起了人们的广泛关注,作为潜在的分子生物标志物,circRNA在肿瘤的发生、发展中发挥了重要的调控作用。目前尚无circRNA在亚硝胺、藻毒素致食管癌中作用及机制的研究。识别circRNA在亚硝胺、藻毒素
随着中国铁路网的建设,安全性和可靠性成为了列车运行急需研究的重点。其中平交道口作为公路和铁路的交叉点,出现障碍物后极易发生交通事故。针对该问题,现有的解决方案是安装安全护栏、红绿灯和驻管人员看守等,但这些方法费时费力。因此,本文在综合分析国内外轨道障碍物检测方法研究的基础上,提出一种基于图像识别的铁路平交道口障碍物检测方法,主要内容如下:为了提高算法检测的实时性,使司机更快的收到平交道口的障碍物信
大力发展可再生能源已成为人类社会经济发展的必由之路。在各种可再生能源利用技术中,风力发电以其资源分布广、储量大、技术相对成熟而得到快速发展。但随着风电开发速度的不断加快,陆上风力资源利用正逐渐饱和,海上风电成为未来发展的主要方向。目前广泛应用于陆上风电的风力发电系统主要是有刷双馈发电机和永磁同步发电机,它们虽各具优势,但用于海上风电都还有一些亟待解决的问题。无刷双馈电机是一种无需电刷和滑环即可实现
要让学生蓄积、孕育、发酵和形成语文素养,仅仅依托于教材中有限的文本是远远不够的,教师要遵循“精读课文—略读课文—整本书阅读”的“三位一体”模式,充分激活学生的问题意识,做好整本书阅读的规划,明确整本书阅读的方向与内容,搭建分享平台,在量变引发质变的过程中,促进学生的语文素养高效发展。