示教知识辅助的无人机强化学习控制方法

来源 :北京航空航天大学学报 | 被引量 : 0次 | 上传用户:bat_wing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习算法应用于无人机自主控制中存在学习效率低的问题,结合示教学习利用专家经验对其进行改进,提出了基于示教知识辅助的无人机强化学习控制算法。通过设立示教目标函数、修正值函数,将专家经验作为监督信号引入到策略更新中,实现专家经验对基于强化学习的无人机自主控制系统优化过程的引导,同时,设置专家经验样本缓存库,利用经验优先回放机制赋予经验样本不同的利用率,提高数据的使用效率。仿真结果表明,与普通的无人机强化学习控制系统相比,示教知识辅助的控制系统能够在训练初期快速获得奖励值,整个学习过程中获得的奖励
其他文献
针对传统的多基线InSAR高程重建方法抗噪声性能不强的问题,该文提出一种基于无味卡尔曼滤波(UKF)的多基线InSAR高程重建方法。该算法首先构造稳健的UKF高程重建系统模型,并利用具有较强噪声抑制能力的修正矩阵束模型算法提取UKF高程重建系统模型所需的干涉相位梯度估计值;其次,通过构建反映地形突变信息的残差信息矩阵,把最大似然高程估计信息融入到UKF高程观测模型中;最后,基于UKF的多基线高程重
期刊
土壤温度植被干旱指数(TVDI)是表征土壤干旱状态的常用指标,土地利用/覆被(LULC)类型、LST-NDVI特征空间的干燥与湿润边界的非线性属性是TVDI遥感反演过程需要考虑的问题,然而前人的研究与应用大多忽视了这些条件,带来了部分误差。本研究选取黄河流域典型资源驱动型河段内蒙古“几”字湾都市圈(呼包巴鄂乌五市)作为研究对象,以1986—2020年8期816景Landsat-5/8时序影像和同期
期刊
磁控胶囊机器人主要应用于人体肠道的诊断和治疗。根据永磁体法,设计制造了一套磁控胶囊机器人旋进时管内流体流场测量系统,采用CFD方法数值计算和PIV技术实验测量机器人周围流体涡量,数值计算和实验测量结果的变化趋势和大小基本相同。更进一步,采用均匀设计数值模拟优化方法,数值计算管道直径、机器人平移速度、机器人转速和流体动力粘度对胶囊机器人运行平稳度(即以机器人周围流体湍流强度为指标)的影响规律,建立了
期刊
我国城市更新因投入大、收益少且分配不均,长期陷入动力不足、阻碍有余的困境。本文运用城市运营模型,分别对当前我国政府、资本、社会群体主导的3种主要城市更新类型进行分析,梳理其动力和阻碍来源,得出驱动城市实现自主更新的两个基本条件:在宏观上为城市提供收益,在微观上平衡、统筹各主体利益。结合当前社会背景和国际成功经验,提出以创新活动驱动城市自主更新的新模式:围绕创新创意人群建立“创新服务媒介”,通过该“
期刊
精准刻画地表径流的路径及其所携带的面源污染物随径流的输移过程是准确估算面源污染入水体量、污染关键源区辨识和高效防控的关键,在我国以小农户种植为主、景观特征复杂的地理条件下尤为重要。鉴于目前常用的面源污染模型大都起源于国外,往往对径流路径的空间差异性及污染物陆面输移过程进行概化,介绍了一个基于径流路径的分布式面源污染模型(STEM-NPS)及其研发与应用进展。首先阐述了该模型的研发背景、模型原理和结
期刊
[目的]研究洪泽湖大堤不同植物群落土壤稳定性、水土保持功能及抗冲能力,为洪泽湖大堤植物的选择及功能的提升提供科学依据。[方法]通过称重法、重铬酸钾外加热氧化法、环刀法、湿筛法、索波列夫抗冲仪和静水崩解法测定洪泽湖大堤杨树、杨树与水杉混交林、水杉、朴树和狗牙根等不同植物群落的根系生物量、土壤有机质、容重、水稳定性团聚体、抗冲性和水稳性指数。[结果]在所有的植物群落中,杨树的平均胸径、树高、冠幅和郁闭
期刊
老旧小区改造是我国实施城市更新行动的有机组成部分,树立正确的价值导向十分重要。文章以江苏为例,梳理了老旧小区的特点、问题和未来价值;提出老旧小区应被作为资源看待,树立有机更新的思维,助力城市可持续发展的整体目标实现;结合《江苏老旧小区改造(宜居住区创建)技术指南》的编制研究,强调有机更新语境下的老旧小区改造应关注4个关键环节:一是尊重民意,因地制宜合理生成改造项目;二是面向未来,改造中融入多目标要
期刊
地理世界中存在一类具有产生、发展和消亡的地理现象/对象,综合对地观测技术和多源信息获取技术的发展提升了获取这种动态地理现象的能力。现行的地理时空分析方法以点、线、面、体为基本单元,以数据获取尺度为分析尺度,割裂了地理现象的时间连续性,限制了地理时空动态的分析能力。把产生、发展和消亡的动态演变抽象为地理过程,从演变过程的尺度,提出一种新的地理时空分析方法。首先,提出“地理过程—演变序列—时刻状态”的
期刊
在分体式炮弹产品的质量检测中,螺纹连接处间隙的高精度稳定测量是保证炮弹质量的重要指标之一。为了精确测量螺纹连接处间隙,利用机器视觉的方法,提出了一种基于改进Otsu-Sobel的分体式炮弹缝宽视觉测量方法。该方法根据图像特征生成自适应感兴趣区域,再通过单调化处理与Sobel算子确定缝隙边缘的粗定位区间,在局部利用图像梯度的离散度精确定位缝隙边缘。为解决机械安装、缝宽倒角等因素对精度的影响,利用了最
期刊
氯稳定同位素作为示踪剂,能指示水体演化和探索地质环境变化,在地球科学领域具有广泛的应用前景。连续流同位素质谱法(CF-IRMS)具有样品用量少和灵敏度高的优点,被广泛应用于氯等稳定同位素的测试。氯甲烷作为一种易挥发的气体,在反应过程及测试管路中容易逸出,造成样品损失。如何减少反应及测试过程中氯甲烷的流失,实现氯甲烷的分离纯化一直以来是影响CF-IRMS法测试精度的关键。本文利用稳定同位素比例质谱仪
期刊