基于后继强化学习的智能小车导航策略的迁移

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:lxl_0598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前智能小车导航策略在环境迁移中需要花费大量时间重新训练的问题,文中提出一种基于深度强化学习的智能小车导航策略.该策略使用后继强化学习作为智能小车的决策框架,结合特征映射,使智能小车可以将先前环境中学习的导航策略迁移到新的环境中.首先在初始环境中建立后继强化学习的控制模型,在模型的特征提取输出端加入特征映射网络,使模型可以将新环境的特征映射到旧环境之中,将智能小车在环境中提取的图像信息作为输入状态训练模型.然后将该模型迁移到新的环境之中进行训练,通过特征映射在新环境中复用旧环境的策略,从而减少在环境迁移中的训练时间.最后在仿真环境下进行训练并验证.实验结果表明,所提方法可以在自主完成导航任务的同时减少训练时间,且与传统的强化学习方法相比,在环境迁移的过程中能更快适应新的环境.
其他文献
为服务于脱贫攻坚中产业扶贫重要决策部署,解决传统食用菌信息管理方式效率低、范围小、可操作性差的问题,文中设计研发一种基于云GIS的食用菌质量安全空间管理信息系统.该系统以ArcGIS API for JavaScript和ArcGIS Engine为开发框架,采用B/S与C/S混合开发模式构建表现层;以Oracle数据库建立数据系统,融合动态链接库(DLL)、组件对象模型(COM)及.NET反射机制于一体;以VMware部署私有云环境,基于REST服务构建食用菌质量安全空间管理信息系统.该系统支持食用菌数
针对DenseNet采用ReLU函数在特征传播过程中存在丢失图像的负特征问题,文中提出一种改进的DenseNet方法.首先,为了解决样本数据集少而产生的问题,采用数据增强方法中的图像翻转、旋转和随机裁剪方法来增加数据集;其次,利用Leaky ReLU函数不会丢失图像负特征的特性来代替ReLU函数,在反向传播时增加传播的负特征,并采用迁移学习的基于微调网络的技术进行训练从而防止过拟合.迁移学习是运用神经网络在大型数据集ImageNet上训练好的参数权重在小数据集上进行网络训练,再把原神经网络的全连接层改为小
针对带机械臂的旋翼无人飞行系统实验平台在二次开发设计中存在硬件选择、通信、控制的难题,文中设计一种基于开源飞控PixHawk的分层控制实验平台.该实验平台主要包括旋翼无人机、机械臂、地面站、通信模块4部分.其中,无人机姿态与位置的控制由内外环PID算法实现,机械臂的控制基于正运动学在机载计算机树莓派上实现.PC与机载计算机通过WiFi通信,相比传统的蓝牙不仅增大了通信的覆盖范围而且提高了实时通信的流畅度.采用的分层控制相比于解耦控制虽然精度降低,但所需计算资源较少且在实际中更易于实现.实验结果表明,文中实
针对现阶段核反应堆容器检测平台无法实现全自动定位、定位精度低等问题,文中提出一种基于机器视觉的精确定位方法.首先结合定位特征、测量环境及定位需求设计精确定位分系统,并对定位分系统的布局进行优化调整;其次利用空间圆拟合与SVD实现探头轴线的标定和检测平台全局坐标系的统一;然后通过图像筛选与特征拟合,采用平面切割法实现贯穿件轴线的测量,在此基础上计算出探头轴线的对中偏差值,并转化到运载小车坐标系下,驱动小车进行精确定位;最后在模拟检测现场对该方法的定位性能进行实验验证.结果表明,精确定位分系统的定位误差可控制
为了高效提取高度集中、覆盖范围广和差异性明显的慕课网用户评论关键词,文中提出一种融合BERT和LDA?TextRank的关键词提取方法.实现关键词提取的第一步是获取候选关键词,在获得候选关键词之前需对爬取的课程评语进行预处理,再通过BERT模型训练得到慕课网在线评语的词向量;然后利用LDA主题模型得到候选关键词的主题分布;最后结合TextRank算法计算各主题的关系词及生成评论文本的词主题挖掘.基于此,文中利用BERT文本表示方法,能够更好地联系不同词语之间的相关性;在传统的LDA主题抽取模型的基础上结合
针对目前较多无人值守变电站采用多摄像头分离处理,存在的成像细节模糊、可扩展性差、传输延时长等问题,文中提出一种基于图像融合与H.265的无人值守电力巡检系统设计方案.系统前端设备采用双目摄像头采集可见光与红外图像,通过图像融合算法对可见光与红外图片进行融合处理,解决了可见光干扰能力弱和红外图像模糊的问题.此外,文中系统支持有线/无线两种部署方式,用云端存储来缓解本地存储的压力,且采用H.265编码方式以降低网络延时.最后,对系统的图像融合效果、系统延时以及视频质量进行测试.结果表明,文中系统所输出的融合图
为了充分利用视频中的有效信息,文中提出一种多模型互相融合的双人交互视频行为识别方法.为了解决人体目标检测不全以及特征提取冗余的问题,首先用YOLO_V4检测出人体,去除背景冗余信息;然后提出在Inception_V3网络中引入通道注意力模型SE?NET,进而强化关键特征的提取,使网络更加关注关键特征的细节;最后将特征信息送入拥有记忆功能的LSTM网络进行动作识别和分类.在一个国际公开的UT?Interaction数据集上测试验证文中提出的多模型互相融合双人交互识别算法.实验分析结果表明,交互行为识别的准确
为解决动态背景下运动目标检测所得目标较为微弱且目标区域离散的问题,文中提出一种动态背景下的运动目标检测算法.首先利用SURF(Speeded Up Robust Features)算法提取图像中的特征点,通过双向匹配法去除误匹配的SURF特征点对,并将特征点分为前景点和背景点两部分;再利用背景点计算仿射变换矩阵,以提高仿射变换矩阵的准确性,完成背景运动的补偿,消除背景运动对目标检测的影响.然后对补偿后的图像采用帧差法和形态学操作,完成对目标的初步提取.最后利用颜色、位移和位置信息对目标进行归并处理,完成运
随着装备体系化作战模式在军事活动中的深入运用,其表现出的优势已被世界军事强国高度关注,装备体系贡献率作为衡量装备成体系化建设与作战运用优劣程度的重要指标,已成为当前军事学术中研究的热点.系统梳理与归纳了国内外对装备体系贡献率评估需求、评估理论、评估方法的研究现状,总结出研究成果中存在的问题,为下一步开展装备体系贡献率研究指引方向.装备体系贡献率评估综述对开展装备体系贡献率研究工作具有一定的指导意义.
针对在开展航空侦察取证时缺乏自动化、智能化取证手段的情况,提出了一种基于Reti-naNet与SE融合的航空取证目标检测算法,解决目标尺度变化大、数据集中类别不均衡的问题,并通过SE (squeeze-excitations)模块引入注意力机制进一步改进性能.该改进算法中的特征金字塔网络FPN可有效应对目标尺寸变化较大问题,Focal Loss可有效应对数据均衡性问题,SE模块引入通道注意力机制对特征图进行加强,可进一步利用提取的通道间相关性增强有效特征并抑制无效特征.通过仿真实验,验证了算法能够在增加少