论文部分内容阅读
针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Actor-Critic算法。首先定义了信道分配问题的MDP模型,然后定义了基于替代迹的Actor-Critic算法。Actor采用模拟退火探索策略自适应控制状态空间的搜索,将critic部分求解的值函数的时间差分误差用于更新该策略的优先级,再依优先级对策略进行更新;critic部分采用基于替代迹的值函数更新方式,并计算值函数的时间差分误差,以指导actor改进策略。实验结果表明