论文部分内容阅读
如今,人们生活中处处离不开互联网,随着无线通信技术的不断发展和人们对于便携式和舒适性的要求越来越高,使得无线网络的应用变得越来越普及。特别是随着第五代通信技术的问世,可以预见到将来的无线电子设备将呈现爆炸式增长。但是,无线频谱资源是有限的,如果不能合理的利用和管理它,将无法满足人们对于无线资源的需求。因此,如何提高频谱的利用率是目前面临的一个很严峻的问题和挑战,认知无线电是一个很好的解决方案。在认知无线电网络中,认知用户有感知功能,可以感知到当前的频谱环境,从而可以与授权用户共享同一个频谱资源。然而,认知用户在与授权用户进行频谱共享时,必须要保证不能对授权用户的正常通信造成干扰,这就要求认知用户必须要进行有效的功率控制,在不对授权用户造成干扰的情况下,最大化自身的服务质量(Quality of service,Qo S)。因此,需要研究能够根据不断变化的环境、动态地调整认知用户功率控制策略的方法,从而与授权用户共享同一个频谱资源来进行通信。随着认知无线电网络变得越来越复杂,一些智能优化算法要在这种环境下建立数学模型则显得无能为力。强化学习是机器学习算法中的一种无监督学习算法,它能通过不断地与环境进行互动,通过反馈的奖励值去学习和更新网络参数来满足相应的目标函数,且无需对问题建立数学模型。强化学习还可以结合深度学习,提高其对复杂数学计算的能力和性能,称为深度强化学习。因此,本文将应用深度强化学习的算法去解决在认知无线电网络中的频谱资源短缺的问题,主要针对的是频谱共享中的功率控制问题,以提高频谱利用率和用户的服务质量。本文的主要工作为以下几点:1.首先对认知无线电网络进行了概述,包括其网络架构和认知功能,然后重点介绍了动态频谱管理技术,本文主要关注的是主用户与次用户进行频谱共享时的功率控制问题。接着还介绍了本文将要使用的强化学习和深度强化学习算法。2.研究并分析了基于演员评论家(Actor-critic)和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)深度强化学习算法,在次用户没有任何主用户功率策略的先验信息的前提下,通过不断地与环境互动,来学习相应的功率控制策略,从而在不干扰主用户正常通信的前提下进行频谱共享,以提高频谱的利用率。3.在工作2的基础上,又继续讨论了另一种在[33]中提出的主用户的功率控制策略,其相比于工作2中的功率控制策略要更复杂,对于次用户来说,相当于增加了功率控制的学习难度,相应地,需要次用户使用更复杂的深度强化学习算法的网络结构才能学习到最优的功率分配策略。但是,复杂的网络结构也会增加深度强化学习算法的时间复杂度,本文考虑到功率控制算法的时间复杂度这一指标,又引进了另外两种更先进的异步优势演员评论家(Asynchronous Advantage Actor-critic,A3C)和分布式近端策略优化(Distributed Proximal Policy Optimiztion,DPPO)深度强化学习算法。最后,为了证明本文提出算法优势的普遍性,分别使用工作2和工作3中的主用户功率策略进行实验仿真,对比工作2中的算法,A3C和DPPO可以使用更简单的网络结构达到更优的性能,验证了A3C和DPPO的有效性、优越性和可行性,且DPPO要更优于A3C。