论文部分内容阅读
如何在动态变化的复杂网络中实现高效的路由选择是当前的研究热点之一。Q-学习是一种常用的强化学习算法,通过与环境的不断交互来解决未知环境中最优控制问题,能有效地完成在线式学习任务。本文提出一种基于秩的Q-路由选择(Rank-based Q-routing,RQ routing)算法。RQ routing算法在Q-学习的框架下,保留了Q-路由选择(Q-routing)算法的高效性,引入能动态计算的秩函数,用于表示当前状态在场景中的优先级,用以求解路由选择的最优解,避免等待队列过长,减少网络拥堵,提高传输速度。