移动机器人自主控制的深度增强学习方法研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:haoaini0413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能时代的到来,机器人及人工智能技术已经成为当前研究的热点,如何使机器更加智能化、自主化已经成为了当前研究的一个重大课题。移动机器人的自主导航和控制一直是其最重要的研究方向之一。目前主流的自主控制方法是先对整个环境建图,然后进行定位和路径规划,最后跟踪规划的路径。传统方法一方面比较复杂,包含大量人工设计的工作,另一方面并不符合人的思维方式。如何使得机器人具备自我探索和学习的能力,使其像人类一样思考,只需要看到眼前的场景就能推导出下一步的动作。是一个十分值得研究的问题。深度增强学习通过机器人与环境进行交互,使得机器人具备了自我探索和自学习的能力。深度增强学习只需输入当前看到的场景图像,即可输出指令级的控制命令,而不需要基于地图,可以实现从图像端到动作端的控制,即端到端控制。这种方法类似于人类对于场景的记忆和导航方式,通过不断的训练试错,利用增强学习最大化行动收益,使得智能体学会在遇到类似的场景时应该如何行动。深度增强学习需要大量的训练时间和许多不必要的失败尝试。而模仿学习可以从专家经验数据中学习到专家先验知识,可以用来指导深度增强学习。因此本文将深度增强学习和模仿学习结合,提出了深度模仿增强学习算法框架,智能体向示教专家学习,提高探索效率,在达到专家水平后通过自学习继续完善。本文在AI2-THOR仿真环境中提出基于A3C的深度模仿增强学习算法进行了室内机器人端到端自主导航实验验证,之后提出基于DQN的深度模仿增强学习算法在马里奥赛车环境和PreScan仿真平台中进行无人车的端到端自主控制研究,并通过与传统深度增强学习的比较验证了算法的有效性。本文主要的研究成果包括:1.提出了结合深度增强学习和模仿学习的深度模仿增强学习框架。针对深度增强学习学习时间长,探索效率低等缺点,利用专家经验数据指导增强学习,加快智能体学习速度,同时也能在专家数据的基础上帮助智能体不断自我学习。算法先通过模仿学习训练出专家策略网络,通过专家网络为深度增强学习提供高效优良的训练样本,同时改善奖励函数,并且深度增强学习探索的训练样本也可以成为专家网络继续优化的训练样本。2.提出了基于A3C(Asynchronous Advantage Actor-Critic)算法的深度模仿增强学习算法,并在室内仿真环境THOR中实现移动机器人自主导航。在仿真环境中,以机器人观察到的图像作为输入,输出指令级别的控制命令,从而实现移动机器人端到端自主导航。本文将新提出的算法与经典的深度增强学习算法进行了实验对比。实验结果表明,本文提出的算法加快了学习速度,优化了到达目的地的路径,每回合实验的平均累积回报也有提升。3.提出了基于DQN(Deep Q-learning)算法的深度模仿增强学习算法,在马里奥赛车和PreScan无人车仿真平台里进行移动机器人的自主控制研究,通过第一视角所观察的图像信息自主控制无人车跟随车道,算法相比传统的DQN算法学习速度更快,控制效果更优。
其他文献
几何流方程是与Poinc′are猜想和量子理论相关的非线性偏微分方程,广义Tricomi方程是与空气动力学相关的线性偏微分方程.本文给出了它们的一些精确解,并讨论了一些解的性质.
超连续谱(Supercontinuum,SC)是指输入脉冲在非线性介质中传输时,很多新的频率成分产生,出现了在光纤输出端脉冲频谱比输入脉冲频谱宽的一种物理现象。光子晶体光纤(Photonic
在GNSS导航解算中,通常以对观测方程进行线性化后的模型进行计算,在复杂环境下,会影响导航解的精度。卡尔曼滤波是一种高效的递归滤波器,在导航定位中,卡尔曼滤波能够充分利
由于金融、数学、计算机领域的学科交叉和深度融合,越来越多的学者们热衷于研究量化交易。量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据
近几十年,目标跟踪技术发展迅猛,其无论是在军用还是民用方面都得了广泛应用。核相关滤波算法由于其速度快、精度高,在目标跟踪算法中占有越来越重要的地位。但由于跟踪环境
学习习惯是一线教师不断研究的主题,也是学习者学习过程的外在表现。拥有良好的学习习惯会激发大学生学习的积极性与主动性,促使大学生形成学习策略,提升学习效率,使人终身受
在现代汽车工业发展过程中,汽车渐渐不再只是人们日常出行的工具,汽车在未来更是一个充满无限遐想的移动互联空间,逐渐满足用户对安全、智能、高效和乐趣等要求。未来汽车智
针对以往只注重井间砂体预测,对不同类型砂体间接触关系认识不足的实际,十三五计划开展单砂体连通关系识别技术研究,目的在于认清对砂体间的接触关系,寻找注采调整的潜力。而
随着我国城镇化进程加速以及工业化的快速推进,工业废水排放和突发性水污染对水生态环境和人类健康等方面影响日益严重。在众多种类的水环境有毒污染物中,重金属类、天然毒素
一维纳米材料由于量子效应而具有一些非比寻常的性质,致使其应用领域非常广泛,例如:光伏、医疗、柔性电子产品、催化等等。一维碲化物纳米材料又是其中重要的一环。近些年来,