基于强化学习的四足机器人路径规划与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:huanghuimin1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人作业空间的复杂化,四足机器人凭借良好的稳定性和环境适应能力,可以代替传统机器人在非结构化的地图上作业。自主路径规划能力是评价四足机器人智能程度的指标,所以路径规划算法受到了学者的广泛关注。常见的路径规划算法只适用于环境信息已知的情况下,但实际应用中的环境信息往往是未知的,路径规划算法需要具有一定的学习能力才能适应环境。为了提高四足机器人的智能性,让其准确安全地到达指定位置,本文提出了基于强化学习的路径规划算法,并在ROS中搭建了机器人实验环境,测试和验证了算法的可行性和有效性。主要研究内容如下:(1)搭建了四足机器人的软硬件开发平台,为提出的路径规划算法的具体实现提供条件。首先介绍了传感器选型、环境建模方法,然后设计了四足机器人里程计和机器人模型,最后介绍了整体的导航框架。(2)在全局路径规划方面,为了解决环境信息未知或难以获得的工作空间的路径规划问题,利用基于值函数的Q-learning强化学习算法来进行环境探索,提高了机器人的智能程度。针对传统Q-learning算法的Q值表占用存储空间大的问题,引入锁定变量,通过Q-learning的四个派生性质来一次性更新Q值表,减少了算法的时间复杂度,缩小了算法的存储空间;针对最短路径问题,提出了改进的可进行斜向运动的Q-learning算法,对原算法的搜索方向进行了改进,在原本的四个移动方向上,增加了四个斜向运动方向,提高了算法的智能性和对环境的适应性。仿真结果表明改进后的算法能够实现较优的路径规划,并且有效减小了算法的计算量且缩短了路径的长度。(3)在局部路径规划方面,考虑到算法的搜索效率和环境适应能力,从规划时间和路径长度两个指标对基于图搜索的A*算法和基于采样的PRM、RRT和双树RRT算法进行了对比分析。通过仿真实验验证了双树RRT算法在规划效率、路径长度和环境适应能力方面的优越性。
其他文献
岩溶地面塌陷是可溶岩分布地区在各种因素作用下,地表发生突然塌陷的过程。作为最危险的自然灾害之一,岩溶地面塌陷已成为岩溶地区最普遍的地质灾害,其危害主要表现在破坏公路、铁路、建筑物以及地表水体,影响农业用水、用地,造成人员伤亡及财产损失等。岩溶地面塌陷由于其隐蔽性、突发性、不确定性、多因素性和危害性等特点,已成为影响和制约岩溶地区社会与经济发展的重要因素。目前,学者们采用多种方式对岩溶地面塌陷的孕育
深度学习(Deep Learning)在提高人工智能水平方面起着巨大的作用,其中卷积神经网络(Convolutional Neural Network,CNN)凭借其“稀疏连接”与“参数共享”的特性,具有较好的自学习能力和鲁棒性,因而被广泛应用于如图像分类、目标检测等领域。作为一种数据驱动的端到端特征提取技术,在各类数据样本急剧增大的同时,卷积神经网络的模型结构也愈发庞大且复杂。与此同时,这种从数
随着航空市场不断扩大,大量民营资本进入航空制造领域,在推动航空工业不断发展的同时也带来了激烈的市场竞争。在航空零部件试制领域,试制产品技术要求高、质量控制严格、需求多变,新兴民营企业普遍存在生产效率低、成本高、交货周期长、一次交付合格率低等问题。其试制车间属于柔性作业车间,加工任务的设备、作业人员选择和顺序安排灵活性大,传统的经验调度方法难以适应柔性作业生产要求,研究与之适应的车间调度方法对提升该
随着现代社会民众生活水平的提升,越来越多样化的公共区域成为人们文娱和工作地点的选择,但由于这一趋势的增长而导致公共区域的社会安全问题也同样日益突出。近年来随着民众的出行频率的增加,对人流量的管控和疏散已然成为公共安全的一项重要课题。现如今,新冠疫情在全球仍未得到有效控制,尤其在人群密集区域这一问题更为突出,高效准确地预测人群密度能为安防工作提供参考指标,从而通过人为干预有效降低公共区域踩踏以及病毒
我国新能源汽车销量中纯电动汽车所占比例越来越大,电机作为电动汽车的核心部件之一,其中高功率密度永磁同步电机具有大功率、体积小、调速范围广等特点,是电动汽车用电机的未来发展趋势。但这些特点也带来了热流密度大、散热条件差等问题,因此有必要对电机的温度场、永磁体的温度退磁特性及相关电流矢量控制理论开展研究。本文以高功率密度扁线绕组永磁同步电机为研究对象,进行永磁同步电机的温度场分析,开发基于控制电流MA
为了应对近几年来通信设备的逐渐普及导致终端与数据流量骤增和频谱资源匮乏等问题,在传统的蜂窝网络中引入了第五代移动通信系统(5G)的关键技术之一终端直通(Device to Device,D2D)通信技术,能够有效地提升系统总容量、能量效率、接入率和降低基站负载。D2D多播通信作为D2D通信方式的一种,相比于单播通信能够更好地适用于多个终端对相同数据进行请求的密集通信场景。然而,相比于单播通信,多播
伴随网络技术及其应用的快速发展,各类网络应用如雨后春笋般涌现,网络流量的模式特征也变得愈发复杂,传统基于规则匹配的入侵检测系统已难以有效区分正常流量和攻击流量。机器学习的复兴推动了入侵检测的发展,基于深度学习的入侵检测模型能够有效的提取复杂流量模式,但过多的流量特征会降低模型的训练速度,并且随着攻击手段的愈发隐蔽,人们正在寻求检测准确率更高的模型。本文引入深度Q网络(DQN)来验证其在网络入侵检测
激光雷达作为一种高精度遥感探测设备,当前被广泛应用于中高层大气的探测。为了确保中高层大气激光雷达获得最佳的探测效果,每次开机观测前通常需要调节激光光束的发射方向,使其与望远镜视场精确收发匹配。针对当前收发匹配技术存在的技术瓶颈,本文分别利用基于CCD成像、基于姿态角度传感器和自适应发展了三种自动收发匹配系统,实现自动收发匹配,并分析了这些系统的优劣和适用范围。本文主要工作如下:(1)采用高分辨率的
随着我国水污染防治工作的广泛开展,许多城市都采用多种措施,实施了河流综合整治工程,并取得了显著的成就。然而,目前关于城市河流综合整治工程治理效果的后评价还少见报道。开展河流综合整治工程治理效果后评价及水质调控方案研究,不仅有助于了解综合整治工程所带来的实际效果和不同治理措施对于污染负荷削减的贡献,而且对于实现河流的长治久清、智慧化维护管理具有启示作用。论文选取主城区某河作为研究对象,总结了其整治工
对于分段不连续映射的研究目前有许多没有触及的地方,本文主要研究分段不连续映射的动力学行为,旨在帮助人们了解金融市场的内生变化并丰富动力学的知识内容.在第一章中我们首先对本文研究背景以及所研究的问题进行说明,然后叙述本文需要用的一些定义,最后给出本文的结构安排.第二章我们介绍本文要研究的模型的归结过程.第三章我们分析了一个金融市场的n维不连续映射模型,根据Dutta应用的方法,对金融市场的n维不连续