行动者评论家算法相关论文
近几十年来,信息技术尤其是移动通信技术获得了前所未有的高速发展,随着智能设备数量的快速增长,移动数据业务更加多元化,对移动通......
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是......