面向移动机器人视觉导航控制的逆强化学习方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：godboy549321336

【摘要】

：

【作者】

：

王熙童

【机构】

：

国防科技大学

【出处】

：

国防科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前,机器人等无人平台的应用广泛,而如何赋予机器更高的自主性与智能性是当前研究的重要目标。移动机器人导航控制一直是机器人最基础的任务之一,经典导航控制方法环节复杂,需要大量的人力物力资源。如何让机器人在导航控制中能够自我学习和适应,提升导航控制的智能性,是一个值得研究的问题。基于强化学习的视觉导航方法不需要精确估计机器人的实时位置,能够基于当前观测的图像输入实现端到端的动作输出,这种方法类似于人类的思维方式,通过在环境中不断的试错训练调整自身策略,从而提高导航控制能力。然而当前,强化学习方法依旧面临诸多问题,不断的试错使得强化学习对数据的利用率较低,需要花费大量时间进行训练;针对不同任务难以对奖励函数进行合适的设置;对场景变换的适应和迁移能力较差等等。而模仿学习能够利用专家数据为智能体提供一定的指导借鉴,从而提升强化学习的训练效率与适应性。模仿学习常见的方法有很多,其中逆强化学习方法是通过从专家轨迹或专家策略当中学习奖励函数,从而指导策略的更新。本文主要针对上述问题,对基于视觉的端到端机器人导航控制问题展开研究。本文的主要研究工作如下:（1）针对移动机器人的视觉导航控制问题,运用逆强化学习方法改善导航控制的性能。针对机器人导航控制任务中奖励函数较难设置、训练效率不高的问题,利用逆强化学习能够从专家轨迹中学习奖励函数的特点来帮助智能体在训练时获得更好的奖励反馈,从而指导智能体在训练时加快学习效率,提升导航控制的准确性。通过在AI2-THOR仿真平台的不同环境场景中设置多个目标点进行导航控制,测试提出方法的性能。结果表明,与随机智能体、基于强化学习的导航方法等方法相比,提出的基于逆强化学习的移动机器人导航控制方法具有更快的收敛速度,机器人导航到目标点的实际路径长度有所缩小,导航控制的SPL（Success Weighted by Path Length）有所提升,使得导航控制的轨迹更加接近于最优路径。（2）针对移动机器人视觉导航控制的泛化性和迁移性能,提出结合极限学习机的逆强化学习导航控制方法和基于奖励网络的逆强化学习导航控制方法。不同的专家轨迹有不同的起点、终点和路径,利用逆强化学习方法结合专家轨迹所得到的奖励函数在用于新的场景和目标点时效果会有所下降,从而限制了模型的适应性与迁移性,即此方法的泛化性能依旧较差。因此通过一定量的专家轨迹与其所对应的奖励函数,分别利用极限学习机和设计的奖励网络实现从状态中预测专家的奖励函数值,从而能够在没有对应目标点专家轨迹的未知任务中也提供更好地奖励反馈。通过设置新的目标点与新的场景两个任务对方法进行性能测试。实验结果表明,与基于强化学习的导航控制等方法相比,所提出的两种导航控制方法提升了在新任务上的导航准确率,缩小了与实际路径长度的误差,提升了SPL,证明了所提出的两种方法在改善泛化迁移性能上的有效性。（3）将正则化方法应用于基于极限学习机和奖励网络的逆强化学习导航控制方法上,进一步增强方法的泛化性能,同时减小算法的复杂度,提升训练速度和效率。利用特征降维和多响应稀疏回归的正则化方法对基于极限学习机的导航控制方法进行优化,利益熵正则化方法对基于奖励网络的导航控制方法进行优化,同样设置新的目标点与新的场景对方法进行性能测试。实验结果表明,与没有正则化的导航控制方法相比,所提出的基于正则化的极限学习机和奖励网络的逆强化学习导航控制方法减小了训练时间,加快了训练速度,同时进一步提升了方法对新场景任务的泛化迁移能力。

其他文献

面向目标定位的多无人机自组织方法研究

随着无人机的任务日益复杂和多样化,多无人机通过自主协同来完成任务已广泛应用于军事和民用等领域,如军事侦察、目标检测等。多无人机协同执行任务通过多机多传感器进行多方位信息感知,获得对环境状态更全面的认知;通过将总任务分解成多个子任务并合理分配给多个无人机执行,简化了任务实现的复杂度,提高了任务执行效率。论文以多无人机目标定位任务为背景,将无人机群抽象为一个发散式的多智能体系统,提出一种多智能体自组织

学位

基于静息态fMRI时空特性的阿尔兹海默病辅助诊断研究

阿尔兹海默病（Alzheimer’s Disease,AD）作为一种神经性退化疾病,正在严重危害着老年人的健康与生活质量。利用计算机对AD影像进行辅助判别有利于减轻医生读片负担,帮助医生快速筛查AD患者,从而尽早进行干预,延缓进程。静息态功能磁共振成像（resting-state functional Magnetic Resonance Image,rs-fMRI）是在受试者进行平躺,且全身放松

学位

生姜收获期和贮存期块茎疫病的发生原因及防治措施

2021年昌邑市生姜块茎发生了以前少见的由疫霉属病原菌造成的不同于茎基腐病的疫病，其发生面积大，导致块茎难贮存，严重影响商品质量和姜农收入。为有效避免生姜块茎疫病大发生，从疫病的症状、病原、传播途径及形成原因、防治措施等方面，针对性提出预防措施，供种植者参考借鉴。

期刊

浮针疗法治疗痛证的临床研究进展

随着现代化医疗的发展，痛证治疗也从单一维度治疗组织损伤逐渐向感觉、情绪、认知、社会的多模式镇痛转变。该文结合国内外近年来疼痛医学领域的研究成果，简要梳理了近10年采用浮针疗法治疗各类痛证的临床研究，从实践成果及操作特点出发，从疼痛医学角度探究浮针疗法的理论依据及原理，并针对目前浮针疗法在疼痛领域的临床应用优势与不足进行剖析。

期刊

鸭巴氏杆菌病流行诊断及防治

鸭巴氏杆菌病又被称为鸭出血性败血症，它是由致病性多杀性巴氏杆菌感染引发的一种高度接触性败血性传染病，急性发病病例呈现严重的败血性，出现剧烈的腹泻症状，慢性型表现为严重的关节炎，一年四季均可以发生流行，具有较高的发病率和致死率，会给鸭养殖产业造成巨大的经济损失。多杀性巴氏杆菌病发生流行之后，如果不能够及时采取措施进行有效的防控，往往会引发大批量的鸭群死亡，并且会呈现集中死亡的特征。所以，需要我们加强

期刊

面向离散区域的多无人机区域覆盖路径规划技术研究与实现

多无人机覆盖规划是智能无人机集群任务规划及控制中的一个典型问题。多无人机覆盖规划技术可以广泛应用于目标搜索、灾后救援、农业生产等应用当中,能够为这些应用任务的高效完成提供有效支持。多无人机覆盖规划问题最主要的挑战是:如何在一定约束条件下,为无人机集群合理分配覆盖任务,规划出所有无人机的覆盖路径,使得无人机能够在最短的时间内完成覆盖任务。为此,本文针对多无人机对多块离散区域的覆盖路径规划问题展开研究

学位

面向维修操作的手部动作捕捉及其运动控制仿真研究

随着人工智能技术与机器人技术的发展,开发应用于辅助维修的人-机混合型智能机械手,不仅是有效提高维修效率和确保维修质量的重要途径,也是实现维修保障领域智能化发展的必然要求。然而,发展维修用智能机械手还存在手部动作分解、运动建模、基础维修数据匮乏和人手运动感知等大量理论和实际问题需要解决。基于此,本文主要围绕人体手部维修操作,依托基于双目立体视觉技术的手部动作捕捉系统开展手部动作捕捉及运动控制仿真研究

学位

门诊2型糖尿病患者降糖药物的用药情况及合理用药指导分析

目的研究针对性用药指导在门诊2型糖尿病患者使用降糖药物中的应用效果。方法选取2020年10月—2021年10月于泉州市光前医院门诊接受治疗的2型糖尿病患者70例为研究对象，用随机数表法分为两组，每组35例。对照组开具处方后并给予常规用药指导，观察组患者在开具处方后实施针对性的用药指导，比较两组患者的用药依从性、用药知识知晓程度、血糖值、用药不当行为发生率。结果观察组的用药依从率显著高于对照组

期刊

面向行人重识别的小样本学习算法研究

随着深度学习的提出,人工智能在传统机器学习技术的基础上又向前迈进了一大步。然而大多数实际应用场景都无法满足深度学习所依赖大数据和有监督条件。深度学习场景中普遍面临的小样本难题有待通过小样本学习的研究来解决。行人重识别作为典型的小样本学习研究场景,存在缺乏样本标注和新增类别多的小样本问题。对小样本条件下的行人重识别进行研究在智能视频监控、智能安保等领域有着重要的研究意义和应用价值。本文面向行人重识别

学位

政府开放数据生态链演进模式及其实现路径研究——基于生态位理论

基于生态位理论视角，梳理政府开放数据生态链的演进机理，构建政府开放数据生态链结构模型；根据生物生态位的变化、生态的平衡与失调探索模式的演进，将政府开放数据生态链的演进模式划分为节点演进模式和链式演进模式两大类；选取有代表性的案例，探讨政府开放数据生态链演进模式的具体实现路径，并进一步对政府开放数据生态链提出相关建议。

期刊

面向移动机器人视觉导航控制的逆强化学习方法研究

与本文相关的学术论文