基于深度强化学习的移动机器人自适应导航研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xia226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的快速发展促进了移动机器人在日常生活中的使用,使得机器人需要面对未知且复杂的工作场景,因此机器人需要具备稳定的导航能力。但目前SLAM和路径规划技术在未知环境中的导航方法存在构建和更新地图耗时、路径规划困难等问题,而基于深度强化学习的移动机器人导航方法可以直接从传感器信息映射出动作指令,且无需完备的先验知识。因此,本文针对移动机器人在室内未知环境下的导航问题,采用了深度强化学习的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法对移动机器人导航技术展开了深入研究,对机器人在无先验地图情况下实现导航具有重要的研究价值。首先,针对DDPG在经验回放过程中经验样本利用效率低而导致模型训练速度慢的问题,提出了一种结合经验样本分类和对高相似度样本剪枝的经验回放机制:按照TD-error绝对值的平均值对经验样本进行分类并分别存储在两个不同的经验缓冲池中,按照一定比例从两个缓冲池中采样。同时,为避免缓冲池中稀缺经验样本的丢失,按照一定概率丢弃高相似度样本。所提出的方法利用Cart Pole-v0倒立摆实验进行验证。实验结果表明,所提出的方法可以加快模型的训练速度,具有更好的稳定性。其次,针对影响导航模型较大的奖惩函数和网络结构设置不合理,易导致导航模型训练周期长、机器人在复杂场景中导航稳定性差的问题,本文对奖惩函数和网络结构进行了改进。利用人工势场设计了机器人在探索过程中的势场奖励函数,从而构建出更加“密集”的奖惩函数,并对Actor网络和Critic网络进行优化,使得机器人能够灵活应对实际的导航环境。结合改进后的DDPG算法,构建了一种移动机器人自适应导航模型。最后,对本文所提出的导航模型进行实验验证。首先,利用Gazebo创建仿真环境,完成导航模型的训练,并分析其训练过程,实验的结果表明本文的导航模型能够以较快的速度学习导航策略。然后,创建不同的仿真环境,测试导航模型在不同环境下的导航性能,并与其他导航模型进行对比分析,由试验结果可知,本文提出的导航模型能够驱动机器人安全、快速的完成导航任务,且具有较好的泛化能力。最后,构建机器人自主导航系统,并在实际环境中进行导航测试,实验结果表明,在没有先验地图的情况下,本文所提出的导航模型能够驱动机器人避开环境的障碍物,并顺利达到指定目标点。
其他文献
旋转机械设备作为最为重要的现代工业系统设施之一,其关键部件滚动轴承和齿轮在恶劣环境下长时间运行容易发生故障,导致人员生命与企业经济遭受严重的威胁,因此对旋转机械系统进行故障诊断的意义重大。近年来,基于深度学习的智能故障诊断方法取得很大进展,然而在实际应用中智能故障诊断方法的研究往往会面临以下两个问题:1.故障数据不足,导致网络模型难以训练;2.在工业故障诊断应用中难以获得足够的标记数据,大量样本因
学位
成熟果实采摘作为农业生产的重要环节之一。研发采摘机器人不仅可以大幅度提高采摘效率、降低采摘成本和人工劳动强度,而且还能满足大任务量采摘需求,避免成熟果实因采摘不及时对果实产量造成的影响。此外,高度的机械自动化对于改变我国传统的人工生产劳作模式,推进智慧农业的发展具有重大的现实意义。机器视觉技术作为采摘机器人的关键部分已经成为当下研究目标检测与三维定位技术的热点。本文以自然环境下的番茄果实为研究对象
学位
报纸
移动机器人的定位与导航是当前人工智能领域研究的关键技术,本文采用多传感器信息融合的方式来提高移动机器人定位导航精度,所以研究具有重要的实际应用价值。首先,对本文研究基于的ROS操作系统进行了阐述,对移动机器人定位与导航的主要技术进行了研究和分析,在此基础上,构建了基于多传感器信息融合的移动机器人定位与导航系统方案。其次,在机器人定位问题研究中,针对传统的基于里程计数据的定位算法存在较大的定位累计误
学位
随着草莓种植行业的不断发展,释放草莓采摘工作的劳动力、提升草莓生产效率迫在眉睫。实现草莓采摘工作的无人化和自动化一直是智能机械研究的热门之一。由于草莓果实柔软,抓手、磁吸类采摘机器人不再适用,切割类机器人更加适合草莓的采摘。为了避免采摘工作中误触破坏果实,切割类机器人需要精确识别果实和果梗具体轮廓。进一步,草莓果实不易保存,草莓采摘工作只针对成熟果实。因此,研究出一种可以识别和分割草莓果实与果梗、
学位
随着人工智能、计算机视觉、5G、机器人等技术快速发展,机器人技术受到了研究学者和工业界各个领域的广泛关注,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术已经成为研究热点。虽然现有SLAM技术已经得到了广泛应用,但仍然存在不足。目前,室内移动机器人大多数基于激光SLAM,利用栅格地图来记录环境特征,为后续的定位和路径规划做准备。因单线激
学位
随着人工智能技术的飞速发展,智能移动机器人的使用领域愈来愈广泛。同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术作为一项协助智能机器人实现自主定位、导航的重要方法,受到了许多研究人员的重视。视觉里程计作为视觉SLAM的前端,对于机器人的定位和建图起着至关重要的作用。目前,大多数的视觉里程计算法在静态环境中使用效果较好,但是如果场景中存在
学位
[目的]协同推进粮食安全与碳中和目标是当下中国的核心议题,但粮食生产对生态碳汇的影响尚不明确,文章尝试梳理粮食生产影响生态碳汇的作用机理,并实证甄别粮食生产影响生态碳汇的净效应。[方法]构建粮食生产影响生态碳汇的分析框架,利用2000—2017年中国县域面板数据,采用双向固定效应模型进行实证检验。[结果]基准分析表明,粮食生产对生态碳汇总量具有显著正向影响。异质性分析表明,复种指数的适度提升有助于
期刊
飞机、高速列车、汽车、地铁、轻轨等是我国重点发展的新兴产业,共同面临着轻量化设计需求,越来越多的铝合金、钛合金、镁合金等轻金属零部件被采用,这些轻金属零件的主要加工手段为挤压塑性成形,然而,我国挤压生产工艺普遍存在能耗高的问题,导致单位产品综合能耗过高,产品能耗成本异常突出。以铝挤压零件为例,成品率不足60%,平均工艺能耗为1571~5405 kg标煤/吨,是欧洲的1.43倍,提高挤压成形工艺系统
学位
锂电池的剩余使用寿命(Remaining Useful Life,RUL)预测研究是故障预测与健康管理中不可或缺的一部分。为保证电动汽车安全行驶和最大化使用能量,准确、及时地预测锂电池的RUL尤为重要。由于锂电池内部结构的复杂性,机理模型难以囊括锂电池的退化趋势,数据驱动应运而生。本文针对数据驱动中健康因子(Health Indicator,HI)构建和预测算法选择存在的问题展开研究,主要内容如下
学位