基于深度强化学习的无人机辅助无线传感网络最优传输策略的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ac8297090
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代通信网络的蓬勃发展对于高质量通信服务提出了前所未有的要求。凭借着灵活部署和视距传输等诸多优势,无人机通信有望在未来的无线通信系统中扮演关键角色。总结以往文献,空地一体化网络中的无人机应用研究,可根据无人机在网络中的地位大致分为两种场景:无人机辅助的无线网络通信场景,其中无人机作为部署在空中的基础设施;以及蜂窝网络辅助的无人机通信场景,其中无人机作为获得服务的空中用户。本文考虑将两种主流研究思路结合起来,利用一部分已作为空中用户的无人机,在不干涉其运动轨迹及任务执行的同时,使用它们的剩余可用通信资源进行辅助通信。这为无人机的应用研究开拓了一种全新思路。考虑到现实中执行空中任务的众多无人机,其中只有少部分是在执行通信相关的任务,因此有相当数量的无人机仍剩余较多的可用通信资源,有能力辅助地面网络提升通信性能,特别是无线传感网络。当这些无人机按照原定任务轨迹运动时,能够同时辅助覆盖区域内的用户或网络进行数据传输。在本文中,我们从一个新颖的角度研究了无线传感网络中的无人机辅助数据传输问题。考虑到无人机的动态位置、传输任务的随机到达以及无人机与各传感簇之间的实时匹配等诸多不确定因素,本文分别基于DQN算法和DDPG算法提出了联合优化无人机匹配调度和网络功率控制的方案,旨在获得更好的通信性能。通过合理的无线资源分配与调度,可实现网络长期平均数据传输量的最大化。仿真结果验证了本文提出的基于深度强化学习的算法在多角度的性能比较中均展现出有效性和优越性。本文中无人机辅助无线传感网络的最优传输策略的研究工作如下:1.提出了一个无人机辅助无线传感网络数据传输的通信模型,其中,地面无线网络由具有能量收集装置的传感节点构成。随机分布的节点利用K均值算法根据地理位置进行分簇,将网络划分为多个由簇头节点进行管理的传感器簇,以获得更好的通信性能。本模型能够在不额外部署无人机或其它基础设施的情况下提升地面网络的数据传输性能,更加有效地利用了无人机的空闲通信资源及其良好的视距信道优势,同时减少了传输中存在的干扰和能量消耗。系统模型符合绿色通信理念。2.由于待解决的优化问题是一个混合整数非线性规划问题(MINLP),不能使用数学解析手段直接进行求解。因此,我们将其重新表述为有关传输任务数据量、节点收集能量、节点电池电量和实时信道状况的离散时间马尔可夫决策过程,并采用深度强化学习方法解决此问题,最终可得到一个包括无人机匹配调度、带宽分配和簇头节点上传功率选择的即时策略。灵活的调度和适当的功率控制能够有效地提升空地一体化网络的性能。3.基于深度强化学习原理,我们分别提出了基于DQN和基于DDPG算法的解决方案以最大化数据传输总量,并将提出的方法与其它四种对比策略进行比较,从不同角度证明了我们采用的算法的优越性。基于DQN的算法可以很好地应用于具有离散动作空间的优化问题,基于DDPG的算法可以从连续空间中采取行动,显著提升系统性能,更易在实际环境中实现。仿真结果表明,本文提出的基于DQN算法和DDPG算法的解决方案对于所研究的网络是有效的。
其他文献
未来天基信息网络(spaceinformationnetwork,SIN)领域将面临结构复杂、环境动态、业务多样等发展趋势带来的挑战。数据驱动的深度强化学习(deep reinforcement learning,DRL)作为一种应对上述挑战的可行思路被引入SIN领域。本文首先简要介绍了DRL的基本方法,并全面回顾了其在SIN领域的研究进展。随后以星地网络场景的中继选择为例,针对大规模节点问题提出
<正>熊科动物是当今陆地上体形最大的食肉动物,它们常给人一种笨重、缓慢的印象,与大型猫科动物比起来,少了一份威武与霸气。不过,在距今1万年前的北美洲,曾经生存着一种巨熊,其外形与今天的熊科动物有很大差别,令人印象深刻。在距今3万年前的更新世末期,地球正处于第四纪冰川期,美国加利福尼亚州的气候要比今天湿润。在一座山谷中,不断传来嚎叫声,原来是一群恐狼正在围攻一头年老的长角野牛。长角野牛此时已经筋疲力
期刊
<正>股份公司第二炼钢厂机修车间根据工种多、日常检修项目多、检修环境复杂、安全管理难度大等特点,以现场为重点,不断强化职工安全意识、提高职工安全防护技能,确保检修过程中的安全作业,努力做到从人、机、环"三个"方面入手,抓好检修前、中、后"三个"环节,树立"三种"观念;确保检修安全,实现了检修零伤害的安全管理目标。一、从人、机、环三方面入手,做好安全本质化建设人员的本质化安全包括人员的安全生理、安全
会议
欧洲志愿服务与福利国家演变历程紧密相连,贯穿其萌芽及发展各阶段。当福利国家陷入困境后,福利多元主义思潮兴起,志愿服务理论也掀起了新高潮。欧洲志愿服务在实践中弥补了福利国家部分功能,并逐渐拥有稳健的运行及支持体系。本文旨在考察福利国家及欧洲志愿服务发展的历史进程,梳理两者之间的理论联系,阐述当今欧洲志愿服务组织运行及支持体系,进而剖析其发展趋势,以期对我国志愿服务发展提供借鉴。
近年来,我国老龄化愈发严重且下肢失能患者人数逐年增多,人工护理已经无法满足需求,使用辅助机器人完成老年人及失能患者的日常生活辅助是当下研究的一个热点。当使用环境中同时存在多台辅助机器人时,多台辅助机器人的路径规划与避障是一个首要解决的问题。多机器人系统具有较高的动态性,因此传统的路径规划方法不在适用于多机器人系统中,如何让多机器人系统中的路径规划变得更智能是当今研究的重点。近年来机器学习的热度越来
天地一体化网络是近年来新兴的以天基网络为主体,地面网络为基础,结合空中网络的一体化信息网络,其可为陆、海、空、天各类用户提供随遇接入、全球覆盖、按需服务、安全可靠的信息服务。大力发展天地一体化网络信息服务能力以适应各种场景下的业务需求对于信息时代掌握全球空间资源具有战略性的经济、社会和军事意义,也是谋求新技术、新产业领先优势,实现全球化信息服务的必然选择。随着卫星通信技术及移动通信技术的快速发展,
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制
随着移动设备大规模接入网络,能量消耗急剧增长,追求高能效是无线通信系统发展的趋势。设备直连(Device to Device,D2D)通信能够提高数据传输速率以及频谱利用率,为了应对设备能量有限的情况,引入无线携能技术(Simultaneous Wireless Information and Power Transfer,SWIPT)缓解设备能耗,结合SWIPT的D2D通信可以有效改善系统能效。
针对三体对抗场景中的攻防博弈问题,提出了基于深度强化学习的智能博弈策略,包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法,提高了算法训练的目的性,同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练,并得到收敛的博弈策略。仿真结果表明,通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为,
志愿服务正成为推动中国社会转型、参与社会治理的一股重要力量,其志愿性、公益性和无偿性的特征也使该议题在新时代情境下具有持续的生命力。因此,本文以志愿服务组织为研究对象,梳理传统志愿服务组织研究的脉络和线索,对比“自上而下”与“自下而上”两类志愿服务组织在制度结构下的形成路径、讨论视域及其行动过程中的组织逻辑与动员路径的特点,并讨论其在社会治理中所发挥的作用、功能。在此基础上反思信息时代和风险社会双