基于强化学习的移动机器人路径规划研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:tony_tang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动机器人技术的飞速发展,应用于未知环境下的移动机器人路径规划技术得到了越来越多专家的关注与研究。强化学习是一种重要的机器学习方法,通过不断试错与环境交互寻找最优策略。针对未知环境下的移动机器人路径规划问题,研究基于强化学习的移动机器人路径规划。
  首先,针对强化学习机器人面临的探索与利用间的权衡问题,设计一种基于近似动作空间模型策略选择的Q-学习算法。该方法根据机器人运动过程中周围的环境信息,降低机器人真实动作空间模型的复杂程度,提高计算效率。与传统的动作选择策略相比,基于近似动作模型的策略选择方法能够得到一条更加优化的路径,且提高了机器人路径规划的成功率。
  然后,针对复杂动态环境下的机器人路径规划问题,采用分层强化学习的方法,将路径规划系统从上至下分为根任务协作层、子任务选择层和环境交互层三层结构,并将路径规划任务划分为静态障碍物避障、动态障碍物避障及趋向目标点运动三个基本子任务,减小状态空间以及系统学习的难度。
  最后,搭建移动机器人系统的软硬件平台,在Ubuntu操作系统和ROS(RobotOperating System,机器人操作系统)软件框架下,实现数据通信,并设计Pioneer3-AT移动机器人的三维仿真模型和三维仿真环境,实现基于强化学习的移动机器人路径规划的三维仿真实验,然后结合Pioneer3-AT移动机器人进行实物实验。实验结果证明移动机器人在未知环境下通过自主学习能够自主运动到达目标点。
其他文献
学位
学位
学位
学位
学位
学位
为了研究南京市区与郊区气溶胶PM2.5中无机元素浓度分布及一次来源和多环芳烃的污染特征,在南京市区(南京大学鼓楼校区)和郊区(南京信息工程大学校园)设采样点,于2002.12-2003.12和2005.7-2005.8进行了气溶胶PM2.5的采样,对PM2.5中元素和多环芳烃组成和含量进行了测定;对南京市区与郊区气溶胶PM2.5中无机元素的组成、浓度水平、时间变化、富集特征、污染特征及来源进行了对
学位
该文在基本遗传算法的基础上提出了整实型混合编码的遗传算法并用于解决电力系统无功优化问题.该方法克服了以往传统无功优化算法可能陷入局部最优解及难于处理整数问题的不足;与现有的基于遗传算法的无功优化方法相比,该方法巧妙地处理了发电机电压的连续性与变压器分接头位置和无功补偿容量的离散性同时并存的难题.该文的无功优化模型以有功网损最小为目标函数,以发电机电压、变压器分接头位置和无功补偿容量为控制变量.通过
学位
随着互联网的高速发展,互联网的用户数量与各种应用快速增长,海量的数据信息与流量大量产生,这使得用户对计算机网络的服务质量要求越来越高。而网络拥塞控制正是决定网络运作性能好坏的前提。主动队列管理(Active Queue Management,AQM)是作用在中间路由器端进行拥塞控制的智能算法,近些年已经成为网络拥塞控制研究的热点问题之一,目前已经提出了很多经典的AQM算法。  本文主要对几种经典的
该论文对带有金环的封离型CO激光器放电特性进行了理论和实验研究.激光器放电管中放入金环,目的在于充分利用放电区活性氧,实时对CO进行催化再生,从而提高封离型CO激光器的寿命和输出功率.该文比较深入地分析了放电驱动(discharge driven)催化机理,初步解释了催化活性与管径和温度的关系;计算了放电正柱区中的等离子体参数--电子温度T和直接碰撞电离频率β等,给出了放电电流和等离子体参数之间
学位