基于深度强化学习算法的动态功率控制方法研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户：mlj1234567890

【摘要】

：

【作者】

：

杨贺淞

【出处】

：

广东工业大学

【发表日期】

：

2020年01期

【关键词】

：

认知无线电网络动态功率控制频谱共享深度强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今,人们生活中处处离不开互联网,随着无线通信技术的不断发展和人们对于便携式和舒适性的要求越来越高,使得无线网络的应用变得越来越普及。特别是随着第五代通信技术的问世,可以预见到将来的无线电子设备将呈现爆炸式增长。但是,无线频谱资源是有限的,如果不能合理的利用和管理它,将无法满足人们对于无线资源的需求。因此,如何提高频谱的利用率是目前面临的一个很严峻的问题和挑战,认知无线电是一个很好的解决方案。在认知无线电网络中,认知用户有感知功能,可以感知到当前的频谱环境,从而可以与授权用户共享同一个频谱资源。然而,认知用户在与授权用户进行频谱共享时,必须要保证不能对授权用户的正常通信造成干扰,这就要求认知用户必须要进行有效的功率控制,在不对授权用户造成干扰的情况下,最大化自身的服务质量(Quality of service,Qo S)。因此,需要研究能够根据不断变化的环境、动态地调整认知用户功率控制策略的方法,从而与授权用户共享同一个频谱资源来进行通信。随着认知无线电网络变得越来越复杂,一些智能优化算法要在这种环境下建立数学模型则显得无能为力。强化学习是机器学习算法中的一种无监督学习算法,它能通过不断地与环境进行互动,通过反馈的奖励值去学习和更新网络参数来满足相应的目标函数,且无需对问题建立数学模型。强化学习还可以结合深度学习,提高其对复杂数学计算的能力和性能,称为深度强化学习。因此,本文将应用深度强化学习的算法去解决在认知无线电网络中的频谱资源短缺的问题,主要针对的是频谱共享中的功率控制问题,以提高频谱利用率和用户的服务质量。本文的主要工作为以下几点:1.首先对认知无线电网络进行了概述,包括其网络架构和认知功能,然后重点介绍了动态频谱管理技术,本文主要关注的是主用户与次用户进行频谱共享时的功率控制问题。接着还介绍了本文将要使用的强化学习和深度强化学习算法。2.研究并分析了基于演员评论家(Actor-critic)和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)深度强化学习算法,在次用户没有任何主用户功率策略的先验信息的前提下,通过不断地与环境互动,来学习相应的功率控制策略,从而在不干扰主用户正常通信的前提下进行频谱共享,以提高频谱的利用率。3.在工作2的基础上,又继续讨论了另一种在[33]中提出的主用户的功率控制策略,其相比于工作2中的功率控制策略要更复杂,对于次用户来说,相当于增加了功率控制的学习难度,相应地,需要次用户使用更复杂的深度强化学习算法的网络结构才能学习到最优的功率分配策略。但是,复杂的网络结构也会增加深度强化学习算法的时间复杂度,本文考虑到功率控制算法的时间复杂度这一指标,又引进了另外两种更先进的异步优势演员评论家(Asynchronous Advantage Actor-critic,A3C)和分布式近端策略优化(Distributed Proximal Policy Optimiztion,DPPO)深度强化学习算法。最后,为了证明本文提出算法优势的普遍性,分别使用工作2和工作3中的主用户功率策略进行实验仿真,对比工作2中的算法,A3C和DPPO可以使用更简单的网络结构达到更优的性能,验证了A3C和DPPO的有效性、优越性和可行性,且DPPO要更优于A3C。

其他文献

创普投资立项辅助评估系统设计与实现

创普公司投资立项辅助评估系统是出于扩展公司的投资领域和提升投资项目运作水平的需要,特别是为了完善对项目决策的支持能力,从投资运作的多个关键环节入手,最终目的是强化

学位

企业评估行业评估立项评估管理信息系统

基于密度泛函理论的泡沫镍负载锰基低温脱硝催化剂表面气体分子吸附行为的研究

随着氮氧化物(NO_x)排放的日益增多,大气污染愈发严重,国家对NO_x排放标准实现了更为严格的控制。选择性催化剂还原法(NH_3-SCR)是烟气脱硝技术中应用较广且较为有效的一种技术。在SCR脱硝技术中,核心内容是催化剂。当前应该最为广泛的催化剂是钒钛系脱硝催化剂,但其活性温度较高,窗口较窄,而且价格较昂贵,不能满足低温烟气NO_x的脱除需要。因此,寻求高效、绿色的新型低温SCR脱硝催化剂,已成

学位

密度泛函理论Mn_xO_yNi(111)表面负载Mn_xO_y团簇NiO(100)表面吸附

基于二维材料反相器的制备及其性能研究

二维材料硫化钼（MoS2）作为过渡金属硫化物（TMDCs）的典型代表,与石墨烯（graphene）相比,有着可变的禁带宽度,从块状的间接带隙到单层的直接带隙。正是由于其独特的结构,使其在晶体管

学位

硫化钼碳纳米管硫化钼晶体管电学特性互补反相器

深层神经网络的藏文命名实体识别研究

藏文命名实体识别是藏语自然语言处理的关键技术之一,也是机器翻译、信息提取和智能问答等综合应用的重要基础。藏文命名实体识别的工作目前主要使用统计方法,而统计的命名实

学位

藏文命名实体识别深度学习神经网络Bi_LSTM+CRF

VOLTE语音方案中eSRVCC切换成功率优化方法研究与实践

VOLTE是LTE网络语音技术的演进方案,VOLTE技术实现了在LTE覆盖区域内语音和数据都承载在LTE网络,在LTE覆盖边缘通过eSRVCC技术切换至2G/3G网络,保证了VOLTE用户移动至LTE覆盖

学位

演进的LTE的语音增强的语音呼叫连续性IP多媒体系统移动性管理实体

轨道子空间码的构造

网络最重要的功能就是实现信息的传输与共享.传统网络中的数据都是通过中间节点以“存储-转发”方式来传送,具有简单存储转发机制固有的缺点.网络编码要求中间节点以“存储-

学位

网络编码轨道码维数线性化多项式基数

村镇污水处理远程监控系统设计与研究

当今,我国村镇污水处理已被纳入新农村建设中。由于村镇污水处理站点位置偏远且分散,考虑到若向各站点铺设通信电缆成本会很高,且有人值守也会大大增加运维成本,所以研究开发基于无线通信技术的污水处理远程集中监控系统势在必行。本文将基于4G无线通信技术,建立村镇污水处理站点与监控中心的远程数据传输通道,实现村镇污水处理远程监控。本课题来自于安徽省科技攻关重大项目与某环保科技有限公司联合研发,其主要研究的内容

学位

污水处理远程监控4G网络建管一体化神经网络预测

“4MAT”教学模式在高中美术设计教学中的应用研究

信息科技的发展为美术教育提供了机遇,美术教育的结果反过来能够推进科学技术的发展。基于核心素养背景下的美术设计课程,为其提供了个性化展示自我的平台。但对于高中美术教育而言,设计模块在中学美术教学中存在一定的局限与潜力,高中生对设计课程蕴含的深层价值理解不够,教师在教学模式上依然存在诸多问题,使设计教学未能达到预期的效果。本文立足于当下信息时代发展的背景,解决高中设计模块的教学困境,参考国内外值得借鉴

学位

“4MAT”教学模式高中美术设计教学

监控视频信息特征的存储及其索引方法研究

随着网络和多媒体技术的快速发展,视频监控系统越来越普遍,同时成为了平安城市和智能交通的一个重要组成部分,视频数据以指数级的速度飞快地增长。目前,许多研究机构和学者在

学位

视频信息特征存储高维索引R-树聚类

中国石化新疆公司加油站非油品市场营销策略研究

近年来,随着油品价格的长期大幅下滑和短期微小波动,油品销售行业“微利”时代已经到来,单纯的油品经营模式已不能满足企业长远发展需求,目前加油站发展面临的主要矛盾由原先的油品供应是否及时及油品质量的高低转变成较单一的加油站业务和顾客多样化需求之间的矛盾,如何改进单一油品经营模式、提升非油品利润率、促进企业转型升级已成为各大成品油销售企业急需解决的问题,目前从事非油品业务的专家学者大多注重非油品业务发展

学位

中石化新疆公司非油品市场营销

基于深度强化学习算法的动态功率控制方法研究

与本文相关的学术论文