论文部分内容阅读
近年来,随着智能终端和无线互联网技术的蓬勃发展,移动视频流量将占据全球移动数据流量的绝大部分,用户对流媒体业务体验质量(Quality of Experience,Qo E)的要求也越来越高,而高Qo E的视频传输将消耗更多的带宽资源,使得无线带宽资源更加稀缺。随着边缘计算的兴起,将带宽资源分配算法和自适应比特率(Adaptive Bitrate,ABR)算法联合考虑,从全局的角度优化无线视频传输系统中多用户的总体Qo E变得可行。然而无线带宽资源分配和自适应比特率的联合决策算法仍然面临着许多挑战。实际场景中存在大量用户,联合算法需要对每个用户进行资源分配和ABR决策,将使得决策空间非常大。该联合决策问题是一个复杂的非凸优化问题,难以采用最优化方法寻找最优解。此外,基于固定策略的传统方法依赖于对环境的建模和先验知识,难以扩展到不同的网络环境中。因此,本文以无线视频传输系统中多用户的总体Qo E优化为研究点,以实现高性能和高通用性的带宽资源分配和ABR的联合决策算法为切入点,提出了一个基于机器学习的通用算法框架实现带宽资源分配和ABR的联合决策。具体来说,本文提出了基于单智能体Actor-Critic分级深度强化学习的服务质量(Quality of Service,Qo S)控制和ABR的联合算法(QOS&ABR)以及基于多智能体Actor-Critic分级深度强化学习的带宽资源分配和ABR的联合算法(Bandwidth Allocation and ABR,MAC-BA&ABR)。本文的主要创新点如下:1.由于带宽资源分配和自适应比特率决策的异步性,本文首先提出了基于Actor-Critic单智能体深度强化学习的分级联合决策算法,即QOS&ABR算法。该分级决策算法由带宽分配决策网络和比特率决策网络组成,各级决策网络均由Actor-Critic网络构成。Actor网络利用在线环境中能够获取的信息如信道质量,客户端播放器状态等进行决策,Critic网络对Actor网络的决策进行评价,通过环境反馈的Qo E作为奖励实现策略的在线更新,而不需要环境模型的先验知识。实验结果证明,所提算法相比传统方法在不同Qo E标准上均取得了明显的性能提升。此外,该算法具有良好的扩展性,只需对网络结构和奖励设计进行微调和一定的训练,就可以适用于不同波动程度的无线信道和Qo E标准的视频流传输场景。2.为了适应用户数较多的场景,本文将基于传统Actor-Critic结构的单智能体带宽资源分配网络改进成基于多智能体Actor-Critic的形式,提出了MAC-BA&ABR算法。MAC-BA&ABR中的各Actor网络只需要观察用户的局部环境状态对带宽资源分配进行决策,而通过一个Critic网络观察全局环境信息,对各Actor网络的决策做出全局评价,保证了资源分配在优化总体Qo E层面上的公平性。多智能体的设计减少了用户数目变化带来的网络参数增加和结构变化,进一步提高了算法的性能和通用性。3.为了提高联合决策算法对信道质量波动剧烈环境的适应性和前瞻性,本文采用长短期记忆网络(Long Short-Term Memory,LSTM)对信道质量进行预测。LSTM通过学习信道质量的历史值,可以较准确地预测信道质量的变化。实验结果证明,结合LSTM的联合决策算法比未结合LSTM的算法在优化多用户总体Qo E上的性能更优。