基于Q学习算法的移动机器人避障控制策略

来源 :科学时代·下半月 | 被引量 : 0次 | 上传用户:liutingkaoyanhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】提出基于Q学习算法的移动机器人避障控制策略,能使移动机器人在不确定环境中顺利躲避障碍物,以最佳路径到达最终目标。将BP神经网络结合到Q学习算法中,采用人工势场法来确定强化函数值,并利用Boltzmann分布方法实现随机动作选取。仿真试验结果证明了此种控制策略具有良好的可行性。
  【关键词】移动机器人;强化学习;Q学习算法;避障
  1.引言
  在实际的环境中,机器人的无碰撞路径规划是智能机器人研究的重要课题之一。Elisha Sacks详细地介绍了路径规划的前期研究工作[1]。在障碍空间中,机器人运动规划的高度复杂性使得这一问题至今未能很好的解决。特别对于不确定的动态环境下避障轨迹的生成是较为困难的。
  本研究应用强化学习算法来实现移动机器人的路径规划。强化学习是机器人通过学习来完成任务,它是将动态规划和监督学习结合起来的一种新的学习方法,通过机器人与环境的试错交互,借助于来自成功和失败经验的奖励和惩罚信号不断改进机器人的自治能力,从而到达最终目标,并容许后评价。在强化学习中,Q学习算法是从有延迟的回报中获取最优控制策略的方法 [2]。自从Watkins提出Q学习算法并证明其收敛性后[3],该算法在强化学习研究领域中受到了人们的普遍关注。Wiliam 利用HEDGER算法实现了Q函数值的更新,并把此算法成功地应用在移动机器人上,从而实现了Q学习算法在连续状态和空间的求解问题[4]。Takahashi提出了连续值的Q学习方法,可以用来估计连续的动作值,但此方法只能实现简单的动作,有待于进一步的研究。我们将BP人工神经网络与Q学习算法相结合,采用人工势场法确定强化函数值和Boltzmann分布方法选取动作。利用这种控制策略得到的仿真结果证明,移动机器人能够在不确定环境下,有效地躲避障碍物,沿着最佳路径到达目标。
  2.强化学习
  强化学习是一种重要的机器学习方法,同时也是连接主义学习的一种。在与复杂不确定环境交互作用时,它是决策者寻找最小耗费费用的方法。RL起源于人工智能领域的试凑学习。强化学习不同于监督学习,在监督学习中,对每次输入而言,相应的期望输出是已知的,即学习系统知道它的实际输出与期望输出的差值。然后通过真实输出和参考输出的差值来修改参数。在强化学习中,接收的信号是对一个行为的评价,这个评价可能是正、负或者零。这个信号表示不用告诉系统怎么做,而是系统自己决定做什么。机器人用这个信号决定到达目标的策略。强化学习算法如下所述:
  1)在每个离散时间步t,机器人感知到当前状态x(t),
  2)在这个状态选择可能活动中的一个动作a(t),
  3)给出一个强化信号,并产生一个新的后继状态x(t+1),
  4)t<—t+1,
  5)如果信号的状态是最终的状态,那么停止运动,如果不是则返回2)步。
  若X是机器人可感知到其环境的不同状态的集合,A是一个可执行动作的集合。强化信号r(t)是在状态x(t)选择动作a(t)的结果。
  强化学习的目标函数是最优控制策略π: X→A,它在给定当前状态X集合中的x时,从集合A中输出一个合适的动作a。
  通常,最优控制策略采用两种方法计算:第一种是策略重复,直接对策略进行操作;第二种是值重复,寻找最优值函数。这两个方法分别给出了专门的强化学习算法。
  3. BP神经网络与Q学习算法结合
  3.1 Q学习算法
  Q学习算法是求解信息不完全马尔可夫决策过程的一种有效的强化学习方法,也可以将其视为一种异步动态规划方法。Q学习算法用Q (x,a)函数来表达在每个状态之下的每种动作的效果。有限马尔可夫决策问题的模型如下:在每个离散时间步k=1,2,…,控制器观察马氏过程的状态为xk,选择决策ak,收到即时回报rk,并使系统转移到下一个后继状态yk,转移概率为Pxy(a),则控制的目的是寻求极大化回报期望值的最优控制策略,0≤γ<1为折扣因子。给定一个策略π,定义Q值为:
  (1)
  其中:
  (2)
  定义,其中π*表示最优策略,b为在状态y下所对应的动作。Q学习的目的就是在转移概率和所获回报函数未知的情况下来估计最优策略的Q值。
  在初始阶段学习中,Q可能是不准确地反映了它們所定义的策略,初始值Q (x,a)对所有的状态和动作假定是给出的。Q学习系统结构不同于AHC(Adaptive Heuristic critic)算法的结构,采用Q学习的智能系统只有一个决策单元,同时起到动作的评价及选择作用,这样有利于移动机器人根据外界环境实时选择相应的动作。
  3.2 Q学习算法的实现
  Q函数的实现方法主要有两种方式:一种是采用神经网络方法;另一种是采用lookup表格方法。采用lookup表格方法,就是利用表格来表示Q函数,当在环境状态集合下,智能系统可能的动作集合A较大时,Q (x,a)需要占用大量的内存空间,而且也不具有泛化能力。那么,在一个合理的时间里,访问所有的状态和检测到所有的动作,将变得十分困难。因此,在一个连续的状态空间和一个离散的动作空间的情况下,用BP人工神经网络来实现Q学习算法。
  应用神经网络实现Q学习的关键是学习算法的确定。根据Q函数的定义可以简化为:
  (3)
  只有在得到最优策略的前提下上式才成立。在学习阶段,误差信号为:
  (4)
  其中, Q(xt+1,at)表示下一状态所对应的Q值,其中ΔQ通过调整网络的权值使误差尽可能小一些。
  4.强化函数和动作选取
  4.1强化函数
  移动机器人总共配置3个超声波传感器,采用人工势场法来确定强化函数值。其基本思想是将机器人在环境中的运动视为一种虚拟的人工受力场中的运动。障碍物对机器人产生斥力,而目标点对机器人产生引力,引力和斥力的合力作为机器人的加速力来控制机器人的运动方向和计算机器人的位置。该法结构简单,便于低层的实时控制,在实时避障和平滑轨迹控制方面,得到了广泛应用。   F(t)为机器人所受的斥力的合力,相邻时刻受力之差为
  (5)
  故奖励函数r(t)可表示为:
  (6)
  r(t)=-1表明移动机器人离障碍物较近,应该得到惩罚;r(t)=1表明移动机器人离障碍物较远,应该得到奖励;r(t) =0表明移动机器人距离障碍物的相对位置没变化,即不得到奖励,也不得到惩罚。
  4.2 动作选取
  在Q学习收敛以后,最优策略就是对每一个状态选择一个使Q函数值最大的动作,这个最优策略也被称为贪婪策略。然而,在训练的开始,Q(x,a)并不是非常有意义,因此,时常会产生局部的重复。为了获得Q的一个有用的估计值,移动机器人必须扫描和估计所有状态下可能的活动。
  探测方法有三种:第一种方法是随机Pseudo方法,最佳值的动作按概率P选择,否则,在被给定的状态下所有可能的动作中任意的选取一个动作;第二种方法是极端Pseudo方法,最佳值的动作按概率P选择,否则,我们选取在给定的状态下很少选择的动作;第三种方法是Boltzmann分布方法。
  Q学习算法的目的是迭代出一个最大的希望折扣强化信号,这意味着学习的目的是学会对应于环境状态的最优的策略动作。因为强化学习只能根据当前的状态(包括Q值和环境的状态)加以某种随机源产生一个动作。探测方法中的第三种方法能很好的实现随机动作的选取。因此,选用第三种方法作为随机源产生随机动作的方法。
  5.仿真试验结果
  为了验证算法的可行性,对基于Q学习算法移动机器人的控制进行了仿真,仿真平台使用的是MOBOTSIM,并在此基础上进行了二次开发。
  6.结论
  本文提出了一种用Q学习算法来实现移动机器人智能避障的控制策略,把BP神经网络结合到Q学习算法中,应用人工势场法来确定强化函数值。仿真试验结果证明了移动机器人能够在不确定的环境下成功地躲避障礙物,并以最佳的路径到达目标。基于Q学习算法的控制策略能使移动机器人获取自学习功能,增强了机器人自治导航的能力。
  参考文献:
  [1]Elisha Sacks. Path Planning for Planar Articulated Robots Using Configuration Spaces and Compliant Motion. IEEE Transactions on Robotics and Automation ,2003 19(3):381-390.
  [2]Leslie Pack Kaelbling, Michael L. Littman and Andrew W. Moore. Reinforcement Learning: A Survey[J].Artificial Intelligence Research. 1996,4:237~285.
  [3]Watkins C I C H .Learning from delayed rewards. Ph. D Dissertation, King’s college.UK,1989.
  [4]Wiliam D Smart. Practical Reinforcement Learning in Continuous Spaces. http://www.cs.wustl.edu/~wds/content/papers/icml00.pdf
  作者简介:
  刘晓敏:(1980.10—)女,天津职业大学机电学院,讲师,研究方向:机械制造及自动化。
  崔月盟:(1980—)男,天津津航物理研究所,工程师。出生年月1980年,研究方向:力学分析。
其他文献
为了实现烟叶基地信息的高效管理,本文简述了基于MapX组件技术的烟叶基地信息管理系统的开发与应用,该系统具有对烟叶基地信息的查询和统计分析功能,能够实现数据信息的图形
研究了烤房内衬铝箔在密集烤房中的应用效果.结果表明,使用铝箔做烤房内衬平均每炉烟可缩短烘烤时间12h;每kg干烟节煤0.25kg,节电0.08度;烤后烟叶的上等烟比例提高1.5个百分
1.本实验所用正烷酵母(假丝酵母Y-17)的营养素含量与国外同类产品相仿。铅、砷、汞、苯并(a)芘含量均在联合国系统蛋白质顾问小组规定的范围之内,正烷烃及总芳烃含量除部分样
目的 探讨分泌EphrinA1-Caspase-3的T淋巴细胞体内移植对癌细胞的抑制作用.方法 将裸鼠(n=35)接种乳腺癌细胞,构建裸鼠乳腺癌模型.待肿瘤体积达到0.1 cm3大小,选取30只具有平
目的 探讨蜂毒肽(MLT)对人肝癌细胞系SMMC-7721的杀伤作用及可能机制.方法 采用MTT法检测不同浓度蜂毒肽对人肝癌细胞系SMMC-7721的杀伤及程序性坏死特异性抑制剂-1(Nec-1)对
目的 了解龙岩市学校卫生能力建设状况,为加强学校卫生队伍和设施设备建设提供依据.方法 调查龙岩市2019年520所公立学校的校医(保健教师)配备、卫生室和保健室设置情况并统
菲律宾华侨首富、陈永栽财团总裁──陈永栽,其创业史始于一家制造甘油的小公司。目前,他涉足烟草、啤酒、银行、航空、地产、石油化工、养殖、旅游、建筑等领域,建立起了庞大的
二甲基乙酰胺(简称)是化学工业中应用十分广泛的溶剂。含的工业废弃物可能排向大气。本文作者通过对低浓度的毒理卫生学特征的研究,以论证其在大气中的容许标准。用气相色谱
通过12份不同烟草种质类型,筛选均匀分布于烟草24条连锁群上的700对SSR标记,综合考虑PIC值、扩增带型统计的难易程度及引物的重复性,获得54对SSR核心引物,建立了核心引物数据
目的 了解我国创伤后成长(PTG)研究的发展状况、研究热点和前沿动态.方法 以“创伤后成长”和“PTG”为主题,检索中国知网数据库(CNKI)文献,用CiteSpace软件进行文献计量分析