基于生成对抗强化学习的多AUV目标跟踪算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:wkylyf001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自主式水下机器人(Autonomous Underwater Vehicle,AUV)智能化的发展,利用人工智能算法解决水下机器人的目标跟踪问题得到了广泛的应用。强化学习是一种重要的人工智能算法,能够自主学习决策网络,摆脱了传统控制算法对环境模型的高依赖性。但是强化学习训练过程中时常会出现稀疏奖励和样本高相关性的问题。其中稀疏奖励会导致控制网络在训练过程中收敛较慢,最终无法得到最优控制网络,样本相关性高则会造成网络局部收敛。本文针对上述问题,开展了强化学习跟踪算法的研究,主要工作有如下方面:(1)首先分析了AUV的系统结构,建立了固定坐标系和运动坐标系下AUV的空间运动方程,通过平衡运动模型的真实性和复杂性,将六自由度运动方程简化为水平面运动方程。同时为了对比控制算法在不同环境中的跟踪性能,本文设计了三种场景,其中场景1为理想环境,场景2和3分别为增加了随机噪声以及障碍物的环境。(2)其次为了避免训练时发生稀疏奖励,本文基于模仿学习算法的思想,在近端策略优化(Proximal Policy Optimization,PPO)强化学习算法中引入生成对抗网络结构(Generative Adversarial Nets,GANs),提出了生成对抗强化学习(Generative Adversarial Reinforcement Learning,GAIL)算法。该算法通过学习专家轨迹保证学习过程的收敛性以及提高学习效率,仿真结果表明GAIL算法的收敛性能较好。(3)然后为了避免连续样本之间的高相关性导致网络局部收敛问题,本文创建了多个相同的水下环境,通过并行训练每个环境中的AUV降低了前后样本之间的高相关性,并解决了单一AUV探索能力不足的问题。仿真结果可以看出并行训练提升了AUV的跟踪效果。(4)最后将多智能体并行训练方法与GAIL算法相融合提出了多智能体生成对抗强化学习(Multi-Agent Generative Adversarial Reinforcement Learning,MAG)跟踪算法。在水下环境模型中比较MAG算法与主流强化学习控制算法的跟踪性能,仿真结果表明MAG算法控制的AUV在快速性和跟踪精度上均优于对比算法。
其他文献
周朝太师尹吉甫的传说至今仍在湖北房县、山西平遥等地流传,这些传说多以尹吉甫的出身、建功立业的经历和人际关系等为主要内容。尹吉甫传说反映出了历代人们的价值观和精神文化追求。湖北房县于2014年成功地将尹吉甫传说申报为国家级非物质文化遗产项目,为尹吉甫传说的当代传承创造了新的契机。房县将尹吉甫传说从日渐式微的境地,发展为得到官方认可的文化遗产,这一有条不紊的遗产化行为本身及其背后的价值追求,值得关注。
学位
随着经济发展,挥发性有机化合物(VOCs)排放量的增加,检测VOCs对人们生活环境质量具有重要的现实应用意义。NiO和SnO2两种金属氧化物材料,制备成本低,物理和化学性能优异,是理想的气敏研究材料。然而,其对乙醛和乙二醇的气敏性能低。对NiO和SnO2进行纳米化、表面修饰以及复合的方法,可以改善其气敏性能存在的缺点。因此,本论文主要通过合成花状分级结构NiO纳米材料和蝴蝶状分级结构SnO2纳米材
学位
瓷画和漆画追根溯源皆从中国古代传统陶瓷与漆器的器表装饰衍生而来,是我国具有深厚历史积淀和独特艺术魅力的文化瑰宝。当今综合材料的艺术表现手法盛行,借助瓷画中的高温颜色釉具有不可控的窑变因素和漆画的丰富肌理表现及打磨时不可知效果,二者强强结合势必能呈现鲜明有趣的视觉体现。本文以高温颜色釉与漆画材质相结合的平面绘画作品为研究对象,通过大量文献资料参考,分别对高温颜色釉瓷画及漆画的概念、艺术语言进行阐述,
学位
互联网、大数据、移动支付普及的信息时代,数据信息已经成为市场竞争的重要生产要素,是推动企业高质量发展的核心资产,烟草行业必须抢占优势,深化数字思维与创新意识,将数字化愿景付诸行动。基于此,文章以耒阳市烟草专卖局(分公司)为研究对象,选取两个重点培育品规,采用线性回归和移动平均法分析预测品牌卷烟销售趋势,并对卷烟营销数字化转型策略进行了初步思考,以期为烟草商业企业激活数字资产潜力提供参考。
期刊
随着我国经济的不断发展,以及城市基础建设的需要,对于工程技术与质量的要求也是越来越高。为满足人们对美好生活的向往,边坡工程对支护结构提出更高的要求。本文在双排桩的基础上,研究整体性更好的刚结桁架双排桩,采用单因素分析法研究刚结桁架双排桩+锚索的受力特性、变形等,研究内容包括锚索预应力、桁架截面尺寸、桁架布设形式等条件下的变形、内力以及对坡顶构筑物的影响,同时利用模拟沉降结果与理论计算结果进行对比。
学位
随着油画中国化进程的不断深入,一个问题越来越清晰地呈现在我们的视线当中,那就是如何挖掘我国的传统文化并让它与油画创作结合在一起。要解决这个问题就要寻找到一个正确的结合方法和具有可行性的表达内容。因此,本文将从窗格和屏风这两种具有我国文化符号的画面内容,来具体阐述二者在油画创作上可以做出哪些应用和实践。西方学者艾黎·福尔在《世界艺术史》中就从地里位置、民族特点和文化特色对艺术品进行解读,同样的我国学
学位
亲子关系是家庭中父母与子女之间和谐相处的重要联系,沟通质量的优劣则被认为是维系亲子关系的关键因素,子女身心的健康成长离不开一个良好的家庭环境,而良好和谐的家庭环境往往是通过家人之间高质量的沟通创建的。随着全面二孩政策的大幅放宽,二孩家庭成为当下时代所迫切需要关注的对象,因为家庭成员的增加,父母在无意识中将自身更多的精力和关心放在幼孩身上时,父母与一孩之间的问题就会愈来愈明显。部分一孩无法接受新的家
学位
电子商务的极速发展导致电商经营者竞争日趋激烈,同时催生出一系列不正当竞争手段,刷单即为典型的一种。在刷单情境下,电商经营者在电商平台上将价值较高的商品以一元等低价挂单自买自卖,普通消费者在经营者挂单期间以一元低价买入商品,但经营者并未实际发货。数月后,消费者又在经营者挂单期间多次以一元低价买入商品,经营者仍未实际发货。经营者承认自己以一元挂单是在进行刷单。此时,电商经营者与消费者之间多次的买卖合同
学位
数字时代的到来打开了传统媒介长期束缚人类的枷锁,人们进入一个万物互联的高速发展的社会。由于个人或环境条件的限制,一些人或地区无法平等地进入互联网中,造成了区域信息发展不平衡以致“数字鸿沟”的形成。农村学龄儿童作为受教育程度尚低且正处于成长初级阶段的一类群体,他们获取和利用信息通信技术的能力较低,为了弥合农村学龄儿童与其他群体的差距,农村学龄儿童应被纳入数字包容的范围之中。本研究通过对四川省宜宾市9
学位
过量的化石燃料燃烧和大量的废气排放使得大气中二氧化碳(CO2)浓度逐年升高,导致了严重的环境问题,如温室效应、冰川融化等。利用清洁能源产生的绿色电能,将CO2电催化还原(CO2ER)成碳氢燃料,既能改善因大量排放CO2导致的环境问题,又能缓解当前的能源危机。当前CO2ER催化剂存在过电势高、产物选择性低等问题,使得反应过程中产生巨大的能耗和较高的分离成本。因此开发一种选择性高、过电势低的催化剂在C
学位