基于多智能体强化学习的无人机集群网络优化设计

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yl9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人机(Unmanned Aerial Vehicle,UAV)作为一种新兴装备,具有灵活部署和易于控制等特点。将UAV应用于现代移动通信网络,从而扩大网络覆盖范围或构建UAV集群网络,已成为无线通信领域研究热点之一。与此同时,伴随着Alpha Go的成功,作为强化学习(Reinforcement Learning,RL)重要分支的多智能体强化学习(Multi-agent RL,MARL),由于能很好建模多智能体分布式决策问题,近来也在无线网络分布式决策或无人蜂群网络等领域得以广泛应用与深入研究。本文关注UAV集群与MARL交叉的领域,以MARL辅助UAV智能决策为切入点,讨论基于MARL的UAV集群网络优化设计问题。具体研究内容概括如下:(1)针对认知使能的UAV(cognitive UAV,CUAV)集群网络感知-接入信道选择优化设计问题开展研究,为协调CUAV集群对主用户资源的探索与利用,提出基于感知-融合-传输的信道探索利用协议。由于主用户信道占用统计先验知识未知且原始优化问题NP-难,因而引入马尔科夫博弈(Markov Game,MG)将原始优化问题转化为竞争-协作混合多智能体RL(Competition and Cooperation Hybrid MARL,CCH-MARL)问题。进一步地,引入Hoeffding型置信上界(Upper Confidence BoundHoeffding,UCB-H)策略并基于独立学习者(Independent Learner,IL)机制分别设计了基于Q学习与UCB-H增强的IL-Q学习算法(IL-Q-UCB-H)与基于双倍深度Q学习(Double Deep Q Network,DDQN)增强的IL-UCB-H学习算法(IL-DDQNUCB-H)。数值仿真分析结果表明,所提两种算法均能显著提高系统平均收益和信道感知准确率,验证了本文所提算法的优越性。(2)针对面向分布式感知应用的UAV集群网络联合通信策略与飞行轨迹优化设计问题开展研究,为协调各UAV行为,提出了任务感知-数据回传协议并形成了联合通信与飞行轨迹优化混合整数非线性规划问题。鉴于网络具有分布式特点、任务随机更新特性和优化问题非凸组合属性,设计了基于成本-效用复合的收益函数并将原始问题进一步转化成协作式MG问题。进一步地,为解决连续-离散复合动作空间所带来的问题复杂度提升,设计了基于IL的多智能体复合式动作表演评论家(Multi-agent IL Compound-Action Actor-Critic,MA-IL-CA2C)算法对问题求解。仿真表明,所提算法能大幅度提高系统收益,优化UAV轨迹,降低网络能耗。
其他文献
不平衡数据分类指对存在“某类样本数量远远大于另一类样本”现象的数据进行分类,广泛应用于医疗诊断、故障检测、信用贷款等领域。传统机器学习分类方法通常假设样本具有均匀的类分布和相同的误分代价,直接应用于不平衡数据时,分类器会偏向于多数类,导致少数类将被多数类淹没。而现有的不平衡数据分类方法主要侧重于解决数据的类失衡问题,忽略了已被相关研究证实对分类器性能负面影响更严重的类重叠问题。基于上述背景,本文分
学位
随着生物信号检测与处理技术和神经医学等方面学科的飞速发展,对微弱信号高精度处理的需求与日俱增,而增量型Sigma-Delta ADC(Analog-to-Digital Converter,ADC)无需精确的模拟元件匹配就能实现高分辨率,因此得到了广泛的应用,但是增量型Sigma-Delta ADC的精度、面积和功耗在很大程度上取决于数字抽取滤波器的结构。本文针对以上问题,提出了一种面向增量型Si
学位
近年来,随着汽车数量的急剧增加,交通事故发生率也在逐年上升。同时,无线通信技术也在飞速发展,第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)提出基于长期演进的车到万物(Long Term Evolution-Vehicle to Everything,LTE-V2X)技术用于保证交通系统的安全运行。LTE-V2X运行在5.9GHz频段,支持上行链
学位
面部表情蕴含着丰富的情感和行为信息,可以直观地反映出人的情绪和心理活动。表情识别技术在安全驾驶、临床医学、智慧教学等领域有着广泛的应用,已成为计算机视觉研究中的热点。传统基于欧式空间的表情特征提取方法将图像作为标准的网格类型数据处理,虽然能有效地提取表情的时间和空间特征,但忽略了面部图像中的丰富的结构和关联特征,从而导致其特征表达能力有限,不利于于进一步提升对人脸表情的识别效果。论文结合与重庆某汽
学位
我国海上安全形势日趋复杂,海上军事争端越演越烈,能否快速准确地检测船舰目标极大地关系到战争的成败;因此,确保海域安全是我国现在以及今后军事战略的重点。近年来,随着合成孔径雷达(Synthetic Aperture Radar,SAR)成像技术的发展,对船舰目标的精细化观测水平越来越高,使得利用深度学习相关技术挖掘船舰目标的深层特征和精细化信息,进一步提高SAR船舰目标检测性能已成为可能,引起了国内
学位
传统建筑业安全风险防控主要采用基于人工巡检的“人防”手段,存在不可回溯、可靠性差、人力成本高等问题。基于视频监控的“物防”手段在一定程度上可提升风险防控能力,但无法实现实时的风险要素识别和预警。随着人工智能技术的快速发展,基于智能化目标识别技术的智慧工地“技防”手段成为大势所趋。论文结合建筑工地环境复杂多变的实际情况,研究部署便捷、支持风险要素目标实时识别的轻量级目标检测算法和实现智慧工地风险监测
学位
情绪是一种能够表达人的思想、感觉等的综合状态,在人们的交流中有着举足轻重的作用。尤其在人-机交互的研究中,若能准确识别情绪,人-机交互的应用就会更加智能且自然。研究发现,情绪识别的研究综合了认知心理学、计算机视觉、人工智能和脑科学等领域,现已成为一项重要的交叉学科研究课题。如何准确和快速地识别出情绪,一直是该交叉学科领域研究的关键科学问题。目前较成熟的情绪识别算法中,ESRs算法能有效减少剩余泛化
学位
压缩感知理论不再约束于奈奎斯特-香农采样定理对采样频率的要求,其将采样过程和压缩过程进行有机结合,为如何进行有效的信号采样、传输和存储提供了新的模式,将压缩感知应用于图像处理领域,能够减少采样数据量且避免高速采样。从极少量的测量值中有效且高概率高质量恢复出原始信号是压缩感知图像重建研究的核心问题,学者们相继提出了传统和基于深度学习的压缩感知图像重建算法,传统算法基于数学推导是可解释的,但其重建质量
学位
行人重识别技术旨在通过对多摄像头拍下的行人目标进行身份一致性匹配,从而实现对跨摄像头下行人运动轨迹的准确追踪,目前被广泛应用于安全监控、道路交通、智慧校园等领域。面对大量的监控数据时,使用行人重识别技术进行智能识别,可以实现更快、更高效的信息处理和信息分享,提高生活智能化水平,对维护社会稳定安全都具有重要的意义。由于摄像机获取的行人数据集存在光照变化、复杂背景、姿势差异和遮挡等问题,目前的方法往往
学位
随着车辆正在向智能化、网联化演进,行车安全预警作为车辆重要的智能应用之一,受到学术界的广泛关注,有效的行车安全预警能够极大程度提高交通安全,提升驾驶体验。行车安全预警策略一般基于实时道路交通流特性以及本车行驶特性进行建立,如果能够及时发现行车过程中的潜在行车风险,并以之为依据,生成行之有效的行车策略,则能够防患于未然;因此,行车潜在风险的评价方法已经成为学术界的关注重点。本文从VTTI100car
学位