基于深度强化学习的机器人运动控制研究进展

来源 :控制与决策 | 被引量 : 0次 | 上传用户：liongliong447

【摘要】

：

复杂未知环境下智能感知与自动控制是目前机器人在控制领域的研究热点之一,而新一代人工智能为其实现智能自动化赋予了可能.近年来,在高维连续状态-动作空间中,尝试运用深度强化学习进行机器人运动控制的新兴方法受到了相关研究人员的关注.首先,回顾了深度强化学习的兴起与发展,将用于机器人运动控制的深度强化学习算法分为基于值函数和策略梯度2类,并对各自典型算法及其特点进行了详细介绍;其次,针对仿真至现实之前的学习过程,简要介绍5种常用于深度强化学习的机器人运动控制仿真平台;然后,根据研究类型的不同,综述了目前基于深度强

【作者】

：

董豪杨静李少波王军段仲静

【机构】

：

贵州大学机械工程学院,贵阳550025;贵州大学机械工程学院,贵阳550025;贵州大学省部共建公共大数据国家重点实验室(筹),贵阳550025;贵州大学机械工程学院,贵阳550025;贵州大学省部共

【出处】

：

控制与决策

【发表日期】

：

2022年2期

【关键词】

：

复杂未知环境人工智能高维连续空间深度强化学习仿真至现实机器人运动控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于瞬时幅值的光伏系统电流传感器微小故障检测及估计

电流传感器是光伏系统中用于系统控制和状态监测的重要元件,然而受运行环境影响,电流传感器易出现性能退化,影响系统运行安全.为了准确检测和估计出电流传感器微小故障,提出基于瞬时幅值的传感器微小故障检测和估计方法.首先,建立基于瞬时幅值的电流传感器微小故障模型,利用Hilbert变换(HT)估计相电流瞬时幅值将测量的三相正弦电流转换为相互独立的三维直流信号分量;其次,利用快速移动窗主成分分析(FWMPCA)对三维直流信号组成的数据矩阵进行特征提取,获得主元和残差子空间向量的概率密度分布函数;然后,利用Kullb

期刊

微小故障瞬时幅值快速移动窗主成分分析KL距离光伏发电系统

政府补贴和成本共担如何影响平台和企业策略选择—–基于三方演化博弈

基于地方政府对工业互联网平台和加入平台的制造业企业的补贴,以及工业互联网平台与制造业企业间的成本共担,构建“政府-平台-企业”3个主体之间的非对称演化博弈模型,运用微分方程的稳定性定理分析各博弈主体的策略演化路径以及影响其策略演化的因素,并通过雅克比矩阵探讨系统的演化稳定策略.通过数值仿真分析政府补贴力度和平台成本分担比例对系统演化稳定策略的影响,界定可以促使制造业企业加入平台、工业互联网平台进行优化服务的政府补贴力度和成本分担比例的有效区间,为地方政府、工业互联网平台和制造业企业的行为决策提供理论参考.

期刊

政府补贴成本共担工业互联网平台三方演化博弈

Improving the classification accuracy using biomarkers selected from machine learning methods

High-dimensional data encountered in genomic and proteomic studies are often limited by the sample size but has a higher number of predictor variables.Therefore selecting the most relevant variables that are correlated with the outcome variable is a cruci

期刊

ClassificationVariable selectionReversalRegression

带有策略自适应的状态转移算法

针对基本状态转移算法(state transition algorithm,STA)搜索效率低和后期收敛速度慢的不足,对不同算子求解特定优化问题的效果差异性展开统计研究,提出一种带有策略自适应的状态转移算法(SaSTA).首先,定义成功率和下降率两个指标,并在3个测试函数上进行统计研究,以证明不同算子对算法搜索能力的影响,设计一种综合成功率和下降率的评价指标对最优算子进行自适应选择;然后,采用一种非线性控制参数策略平衡算法的探索和开发能力;最后,将所提出算法应用于15个基准测试函数(100维、300维和5

期刊

状态转移算法元启发式策略自适应统计研究全局优化

基于注意力LSTM的多阶段发酵过程集成质量预测

考虑到发酵过程的动态特征对阶段划分的影响,为提高模型预测精度,提出一种基于注意力LSTM的多阶段发酵过程质量预测方法.首先,将原始三维数据沿批次展开,对每个时间片矩阵进行偏最小二乘(PLS)分析得到表征过程变量的得分矩阵和表征质量变量的得分矩阵,采用仿射传播(AP)聚类算法将联合得分矩阵进行聚类,实现第1步划分;然后,采用encoder-decoder模型将表征过程动态性的动态特征提取出来,采用AP算法对其进行第2步划分;最后,综合分析两步划分结果,将生产过程划分为不同的稳定阶段和过渡阶段,对划分后的各个

期刊

发酵过程多阶段偏最小二乘动态性过渡质量预测

舰载机多雷达传感器任务分配与采样间隔融合优化算法

针对舰载机协同探测中多雷达传感器资源配置问题,提出一种多目标跟踪场景下的多传感器数据率管理与任务分配融合优化算法.在基于协方差控制的多传感器分配模型基础上,加以目标优先级和传感器效能条件约束,建立一种多传感器数据率管理与任务分配融合优化模型.将驻留时间改进因子引入序贯卡尔曼滤波算法,计算不同采样间隔下传感器组合状态估计融合协方差,求解最优采样间隔与传感器组合.仿真结果表明,所提出的融合优化算法能自适应优化数据率和雷达分配组合,提高多传感器的多目标跟踪能力,可有效节省雷达资源,与其他方法相比具有较快的收敛速

期刊

多目标跟踪多雷达传感器数据率管理任务分配协同探测

非平坦地形下移动机器人安全路径规划

提出一种基于双分辨率2.5D分层栅格地图的Secure A*(SA*)路径规划方法,以解决移动机器人在非平坦地形下的安全路径规划问题.首先,设计一种双分辨率2.5D分层栅格地图,利用双分辨率栅格对环境中的障碍物信息与高程信息进行存储,以节约地图的存储空间;然后,结合移动机器人运动能力,将环境中的高程信息转化为约束因子,结合移动机器人尺寸,以移动机器人到目标点的距离作为自适应因子,引入A*算法的代价函数中,以保证移动机器人在非平坦地形下的路径符合其运动能力;最后,通过仿真实验结果表明,所提方案相比3D栅格地

期刊

非平坦地形2.5D地图A*算法移动机器人

面向冷链物流配送路径优化的知识型蚁群算法

生鲜电商、冷链宅配的盛行使冷链物流订单呈现出“小批量、多批次、易腐坏”的特点,进一步增大了城市冷链物流配送路径优化的必要性与难度.鉴于此,同时考虑顾客满意度和道路拥堵状况,构建最小化总成本的冷链车辆路径优化数学模型.为求解该问题,将知识型精英策略下的禁忌搜索算子和动态概率选择的知识模型融入蚁群算法,设计一种新的知识型蚁群算法.通过对模拟实例和真实实例进行仿真实验,对传统蚁群算法、基于禁忌搜索改进的蚁群算法与所提出的知识型蚁群算法进行对比分析,验证了所构模型和知识型蚁群算法的有效性.

期刊

冷链物流配送车辆路径优化实时道路状况客户满意度知识型蚁群算法

基于观测优化的双机协同控制与避障

为实现不确定环境下无人机对远程超视距目标的精确指示,考虑空中移动和静止障碍物,提出基于观测优化的双机协同控制与避障算法,从而增加测量信息,减小目标状态估计的不确定度.以费舍尔信息矩阵(FIM)表征所获取的目标信息,理论推导出三维空间中双机最优观测的指标函数,并设计无人机协同控制律,得到优化的无人机观测航迹,增强无人机协同估计目标位置的能力.采用基于相对速度空间的避障算法,同时考虑转弯角速度和传感器探测距离限制的因素,提出保持观测优化的避碰策略,并设计避障控制律,实现对静止和移动障碍物的规避.最后,通过仿真

期刊

无人机协同控制费舍尔信息矩阵最优观测配置避障目标跟踪

无人机探测与对抗技术发展及应用综述

无人机的任意使用对公共安全和个人隐私构成了极大威胁,因此近年来反无人机已成为一个非常重要的新兴领域,越来越多的研究希望通过更精确的无人机探测跟踪技术和引进新机能、新概念技术来更好地反制无人机,从而保证国防安全、公共安全和个人隐私等.基于此,对国内外反无人机技术进展进行分析总结,首先,对基于雷达、光电、无线和声传感器以及多传感器信息融合算法的无人机检测和分类方法的研究工作进行全面的综述;然后,对现有反无人机技术体系的组成及相关系统的优缺点进行综述,讨论了现有的反无人机技术、典型的反无人机系统以及无人机集群对

期刊

无人机无人机蜂群无人机对抗拦截打击无人机探测

基于深度强化学习的机器人运动控制研究进展

与本文相关的学术论文