基于强化学习的两类机器人系统的鲁棒最优跟踪控制

来源 :烟台大学 | 被引量 : 0次 | 上传用户：figo0204

【摘要】

：

【作者】

：

王广仓

【机构】

：

烟台大学

【出处】

：

烟台大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于带有不确定性的机器人系统,本文主要考虑了基于强化学习的鲁棒最优跟踪控制问题.首先考虑受到环境干扰的机器人系统,将其表示为带有不确定性的动力学模型.然后在一些合理的假设下,对自主水下机器人和Mecanum轮式移动机器人分别提出了鲁棒最优跟踪控制策略.最后,仿真结果验证了同步学习算法和近似最优跟踪控制器的有效性.具体地,对于具有模型不确定性和外部扰动的自主水下机器人,提出了一种基于在线策略迭代算法的鲁棒最优跟踪控制策略.首先,通过速度变换推导出水下机器人在固定坐标系下的动力学模型,并引入扰动观测器来补偿总体扰动;其次,在观测误差的影响下,构造了跟踪误差和期望轨迹组成的增广系统,通过设计增广系统的鲁棒最优控制器来解决跟踪控制问题,然后采用基于神经网络的Actor-Critic框架得到了增广系统的HJB（Hamilton-Jacobi-Bellman）方程的近似解.由于扰动观测器会增加系统的状态,采用策略迭代算法时,系统的收敛速度比较慢.因此,通过研究Mecanum轮式移动机器人在外部扰动下的鲁棒最优跟踪控制问题,对学习算法进行了改进.首先通过分析Mecanum车轮的结构特性,建立了滑动作用下的欧拉-拉格朗日方程.然后,将跟踪控制问题转化为增广系统的时不变最优控制问题,应用在线Actor-Critic同步学习算法,采用带有遗忘因子的标准化的最小二乘算法训练Critic神经网络,得到一种改进的学习律来解决增广系统的最优控制问题.保证了系统输出跟踪到给定的参考信号且闭环系统的所有状态有界.

其他文献

面向生物医学文本的实体关系抽取研究

目前,各种知识库中存储了海量的生物医学文本,其数量还在呈指数增长。这些文献是生物医学技术发展的结晶,通过信息抽取技术挖掘隐藏在生物医学文本中的有用知识是一个重要的研究课题。实体关系抽取是信息抽取的一个关键子任务,它在命名实体识别的基础上,把包含实体对的文本分类到预先定义好的关系类型中。目前,面向生物医学文本的实体关系抽取研究致力于通过构建深度学习模型来自动地从无结构化的生物医学文本中抽取出结构化的

学位

面向法律文本的信息抽取算法研究

随着司法体制改革的不断纵深发展,法律文书数字化的程度不断提高,网络上可获得的法律文本信息实现了指数级的增长。但不同种类的法律文本书写规范相异较多,难以通过规则直接进行文档理解和知识分析。因此越来越多的研究者将自然语言处理技术应用到法律文本,通过信息抽取将非结构化的文本转化为结构化的数据,促进了司法信息化发展,提高了司法效率。信息抽取包括命名实体识别、关系抽取和事件抽取,目的在于抽取出文本中的实体关

学位

基于多模态表示学习的情感识别研究

情感是人类心理最基本的组成部分之一,对人类的情感进行分析有助于判断个体的认知及行为,有着广泛的应用场景。由于人类实际上是结合多种信息去判断他人的情感的,那么采用多模态深度学习开展情感分析工作成为了理所当然的选择。虽然引入多模态信息提高了情感预测的性能,但与此同时也引发了诸多呈待解决的新问题。而这些问题,本质上都是多模态表示的问题。本文从多模态表示学习的角度出发,针对多模态情感分析中的一些难以解决的

学位

亚临界星型河渠网和星型拟线性双曲型方程网的精确能控性

本文研究了亚临界星型河渠网中非稳定流的多种能控性问题,并将其结论推广到星型拟线性双曲型方程网的精确能控性.本文首先得到了非稳定流在亚临界星型河渠网中其半整体C1解的存在唯一性,实现了仅在复结点施加控制或在复结点与部分简单结点任意分配控制个数时星型河渠网络的精确能控性.在此基础上,本文进一步推广,得到了由一般拟线性双曲型方程构成的星型网的半整体C1解的存在唯一性,并采取构造性的方法通过将控制全部施加

学位

面向生物医学文本的智能问答相关技术研究

随着生物医学的快速发展,生物医学文献的数量也在逐年增长,生物医学文本已经成为目前最重要的科学研究资源。如何充分地利用海量生物医学文献,从中获取对生物医学发展有用的相关知识,为相关医学工作者提供有价值的信息,有着重要的意义。相比于使用搜索引擎输入关键词获得信息,智能问答系统允许用户直接以自然语言的形式描述自己的问题作为输入,可以筛选或生成精确又简明的答案,有着更好的用户体验。本文以生物医学智能问答为

学位

改进的G-布朗运动驱动的随机微分方程的稳定性，不稳定性和稳定化

本文主要研究如下由G-布朗运动驱动的随机微分方程（GSDE）的解的存在唯一性及稳定性,不稳定性和稳定化:x（t）=x0+∫0tf（s,x（s））ds+∫0th（s,x（s））d＜B＞（s）+∫0tg（s,x（s））dB（s）,其中t ≥ 0,x（0）=x0∈Rn是初值,B（·）是一维G-布朗运动,＜B＞（·）是G-布朗运动B（·）的平方变差过程,系数f,h,g:R+×Rn→Rn.第一章介绍研究背景

学位

基于风格表示的文本风格迁移研究

文本风格是文本的重要特征,相比于文本格式、文本主题等,文本风格更加复杂,属于隐式特征。随着深度学习与自然语言处理的发展,有关文本风格的研究取得了不错的成果。目前的文本风格研究集中在文本情感风格、性别化风格等方面,而文本风格迁移任务目标,则是在保持文本主题不变的前提下,转换文本的表达风格,例如将消极表达转化为积极表达,或是将男性化表达转为女性化表达。文本风格迁移任务能够帮助人机交互系统更好地理解人类

学位

二面体图上的验证码和定位码

图的控制集理论是图论中发展最快的领域之一,其在通信网络、计算机科学组合优化、编码理论等领域有着重要作用.验证码和定位码是与图的控制集概念密切相关的两类重要的码,在编码理论及现实生活中有着重要的理论和实践意义.确定图的最优r-验证码和r-定位码的界是很困难的,即使对于最简单的图,圈和路.事实上,这个问题是NP-完全的.因为图的验证码和定位码的最优界问题是NP-完全的,所以对这两种码的上下界的确定,极

学位

带PDE约束最优控制问题的深度计算

在求解偏微分方程约束的最优控制问题上,传统方法主要借助有限元、有限差分等数值离散手段.虽然说传统方法具有很高的精确度,但是一般来说传统的求解方法都是基于网格的,这种局限性决定了传统方法只适用于简单低维的情形.由于深度神经网络采用的是无网格形式并且在近似高维函数时具有很强的非线性拟合能力,因此近年来使用深度神经网络代替传统的数值离散方法近似偏微分方程开始得到科学家的重视.但是,对于偏微分方程约束的最

学位

胶囊网络的鲁棒性与预测精度的改进

卷积神经网络已经成为许多计算机视觉任务的重要组成部分,如图像分类、物体检测、图像生成等,然而近几年兴起的胶囊神经网络相比较传统的卷积网络来说,具有能够捕捉物体不同组成部分之间的空间层级关系的特点,因此在诸如旋转、缩放甚至重叠的物体识别上具有更好的分类精度.但是与传统的卷积神经网络一样,胶囊网络也容易受到对抗性攻击的影响,造成网络输出不可信的预测结果,这阻碍着神经网络在医疗、安防等关键领域的部署,因

学位

基于强化学习的两类机器人系统的鲁棒最优跟踪控制

与本文相关的学术论文