论文部分内容阅读
在无线通信中,频谱资源的稀缺性已经引起了业界的广泛关注。频谱资源的短缺并不意味着其已被耗尽,而是由于对已有频谱资源的利用率普遍较低,导致大量已分配好的频谱资源得不到良好的使用。因此基于认知无线电的动态智能化频谱感知和频谱共享成为了热门的研究课题。本文考虑包含一个主用户和一个次用户的认知无线电通信系统中的频谱共享问题,希望通过合理的设计使得次用户在不对主用户造成有害干扰的情况下,与主用户共享频谱资源,提高频谱资源利用率。假设主用户和次用户以非合作式的方式共同工作,且主用户基于预先设定好的功率控制策略更新其发送功率。主用户与次用户网络之间没有任何通信,因此次用户无法得知主用户的发送功率和功率控制策略。次用户的目标是学习一个高效的功率控制策略,使得在若干轮的调整后,主用户和次用户都能成功的传输各自的数据,这里的成功定义为接收端所接收的信号可以达到指定的服务质量要求。为了与主用户互动,次用户需要间接的获取主用户的信息。本文考虑在无线环境中布置多个传感器,分别放在不同位置上,测量接收信号强度。传感器所测量得到的接收信号强度可以表征系统的状态信息。当不考虑环境的干扰时,可以证明次用户的功率控制过程是一个马尔科夫决策过程,因此本文提出基于Q-学习的方法进行求解。实验结果表明无论主用户采用何种功率控制策略(本文以两种不同的功率控制策略为例),次用户都可以使用基于Q-学习的功率控制算法使系统在较短时间内从任意初始状态到达最终状态(定义为主用户和次用户均可以成功传输数据的状态)并一直停留在最终状态,实现频谱资源高效合理的利用。然而在实际的通信场景中,传感器接收到信号的强度会受到环境的干扰,次用户可能得到的状态集合由有限离散集变为无限连续集,而基于Q-学习的方法不能处理无穷多个状态的情况。因此本文进一步提出了基于深度强化学习的方法,将Q-学习方法生成的动作-值函数表(Q表)替换为深度神经网络,由于神经网络的输入可以是任意值,因此不再有状态离散有限化的要求。实验结果表明基于深度强化学习的方法在不同的系统参数设定下均有较好的表现。最后将本文提出的方法与DCPC优化方法进行了对比实验,进一步说明了基于深度强化学习方法的优势。