基于积分强化学习的多移动机器人协调跟踪控制器设计

来源 :重庆大学 | 被引量 : 0次 | 上传用户:doudou2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多移动机器人在国防、航空航天、运输等领域应用广泛。其中,多移动机器人一致性控制是一个核心问题,即要求设计一致性控制算法使系统的状态或输出达成一致。多机器人系统具有不确定且受到外部不确定干扰,因此研究不确定非线性多机器人系统的分布式一致性跟踪控制具有实际意义。为增强多机器人系统适应环境的能力,本文采用一种积分强化学习的方法,研究跟随者存在通信时滞、外部扰动以及输入约束下的最优输出协调跟踪控制问题,设计一类基于积分强化学习的一致性跟踪控制算法。最后进行一致性跟踪控制实验,验证算法的有效性。主要研究工作如下:首先,研究一类存在通信时滞、外部扰动以及输入约束下的非线性多移动机器人系统协调跟踪控制问题。设计一种含有内部奖励函数的双积分强化学习算法,得到HJB方程的最优控制解。在考虑时间延迟的基础上,基于增广邻域误差系统,利用策略迭代技术获得最优控制律。接着,针对非线性多机器人系统中存在的扰动项,设计一种非线性扰动观测器,对系统的收敛性能进行分析。最后,引入饱和输入约束,设计积分强化学习控制策略,分析多移动机器人系统收敛性能。其次,进一步研究模型未知的非线性多移动机器人系统协调跟踪控制问题。首先,为实现对跟随者状态的跟踪,针对每个机器人设计一种基于神经网络的跟随者状态观测器。接着,给出一种基于actor-critic神经网络的在线策略积分强化学习算法,采用基于数据的方法来近似得到HJB方程的最优控制解。提出的非线性多移动机器人自适应跟踪控制算法利用两个actor-critic神经网络,通过同时调整权重并施加持续激励的方式来保证critic神经网络收敛到实际的最优值。通过在actor神经网络调节律中引入扰动补偿控制项,保证闭环系统的动态稳定性。最后,搭建含有一个领导者和两个跟随者的多履带式移动机器人实验平台,并进行相应的单机器人移动测试实验与多机器人协调跟踪控制实验以验证算法的可行性。
其他文献
全球变暖导致的能源危机加速了清洁能源应用市场的扩大,风电资源就是其中之一,风电的不稳定却对风电并网带来了挑战,通过准确地对风电功率进行预测可以有效解决风电并网困难的问题。其中,短期功率预测是电网实施实时调度的重要科学依据,也是风电场参与电力现货市场日前市场竞价的重要参考。中长期功率预测是制定风电场设备维护计划、确保电网长期稳定安全运行的关键。然而,风的间歇波动性会导致风电的随机性,以至于对风电的预
学位
近年来,随着AGV智能化水平的提升,AGV正广泛应用到各行各业中。视觉SLAM是AGV进行定位和建图的关键技术,路径规划是AGV在完成给定任务且避开障碍物的重要保障。以ORBSLAM2算法为代表的视觉SLAM存在低纹理场景定位成功率低、建立的地图不可直接用于导航的问题,以Informed-RRT*算法为代表的基于采样的路径规划算法存在计算出最优路径速度慢、路径不平滑、无法避开动态障碍物的问题。如果
学位
近年来,随着机器人技术的发展和成熟,越来越多服务机器人已经应用到我们生活中。影院机器人作为人工智能结合影院场景的创新应用,能够提升影院的智慧化水平和服务质量。论文以影院机器人对话系统为切入点,聚焦人工智能技术对传统影院的改造升级。现有的机器人对话系统,采取规则式或检索式实现,根据用户的问题在数据库中匹配用户可能感兴趣的回复然后发送给用户。这种被动对话的设计,无法适用于影院宣传推广、影片选看等主动对
学位
平行泊车是指将车辆停到平行于通道方向的泊车位内的一系列行为,其具体过程为:(1)寻找可泊车位,行驶至车位附近并保持车辆与车位平行;(2)选取合适的泊车起点,并规划泊车路径;(3)操作方向盘以及执行离合与刹车动作,跟踪路径,同时注意车身与周围障碍物间距离,直至完成泊车任务。本文使用折反射式相机获取车身环境图像,相比多相机拼接方式,具有结构简单、成本低、成像效果好的优势。本文设计了一种轻量神经网络结构
学位
传统中药饮片小包装化是中药安全管理的发展趋势,尽管小包装中药饮片在逐渐推广普及,但由于柔性包装不易于抓取和识别,导致大部分中药房仍需要依赖人工完成药品调剂。实现小包装中药的自动化调剂,能够提升出药效率并降低配药错误率,既减轻了药剂师的负担,同时保障了患者的用药安全。而在此过程中,如何准确快速的进行药袋目标检测是关键一环。当前针对小包装中药袋的检测大多采用传统图像处理和机器视觉方法,这种方案在准确性
学位
工业设备管控主要包括设备的状态监测、控制、故障诊断、健康评估、运行维护等,是智能制造的重要内容。随着制造规模的增加,工业设备规模和复杂性不断增加,且随着工业互联网、先进传感等技术的应用,工业设备管控数据规模呈几何增长,表现出规模大、种类多、分布散等特点,传统基于云计算的中心式信息处理方式无法满足大规模设备管控的数据实时性需求,迫切需要研究新的管控平台,实现设备管控计算任务的高效、灵活、快速部署。针
学位
现有的安全控制辅助决策系统主要依靠专家多年经验总结的判决规则对运载火箭进行故障判决,这种判决方式对安控指挥员的经验与反应能力要求高,过分的依赖人工决策。而且,这种安全控制辅助决策系统,只能对运载火箭当前的飞行状态进行判别,不能对运载火箭飞行轨迹进行预测。本文设计的运载火箭飞行轨迹预测及状态监控系统是安全控制辅助决策系统的子系统,是在原来系统上的扩展。其主要完成对运载火箭当前飞行状态的监控和预测未来
学位
滚动轴承作为一种广泛应用各种旋转机械中的通用零部件,是机械设备发生故障最高的原因之一。旋转机械的平稳运行完全取决于滚动轴承的健康状态,滚动轴承失效占这些机械设备故障的45-55%,其中轴承的磨损是最为常见和不易识别的故障类型,故有必要对轴承磨损故障实施状态监测。但是滚动轴承一般应用于复杂和恶劣的环境中,磨损信号在强噪声环境下相对比较微弱,不易于采集;且滚动轴承振动信号比较复杂,包含较大程度的机械本
学位
国家“十四五”规划将自动驾驶汽车作为了汽车行业重点方向之一。而复杂交通场景下的驾驶安全问题是当前制约自动驾驶技术在汽车行业大规模应用的关键问题。场地测试装备是检验和提升自动驾驶汽车安全性能、提升自动驾驶汽车研发过程效率的重要手段。汽车的自动驾驶级别越高,测试需要覆盖的场景越丰富。目前高端的自动驾驶汽车封闭场地测试系统技术皆被国外公司垄断,相较于国外厂家,我国尚未自主开发出一套功能齐全、精度高的自动
学位
城市快速路车道变窄区是一种常见的交通固定瓶颈,一般由道路设计、施工以及交通事故等原因造成。当瓶颈上游交通需求超过瓶颈区的最大通行能力时,常常导致瓶颈位置发生交通拥堵。而交通拥堵会导致瓶颈区通行能力下降,进一步加剧交通拥堵,严重影响交通运行效率。可变限速策略作为缓解瓶颈区交通拥堵的有效手段,通过调整瓶颈上游道路限速来限制进入瓶颈位置的车流量,可以抑制瓶颈区通行能力下降程度,从而缓解瓶颈区的交通拥堵。
学位