基于深度强化学习的TCP控制方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhuxh054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪80年代,研究人员提出了传输控制协议(Transmission Control Protocol,TCP)并在网络中得到了极为广泛的应用。拥塞控制是TCP协议的关键组成部分,目的在于在避免拥塞的前提下保持尽量高的网络利用率。既往的传统拥塞控制方法多数为基于规则的方法,不能很好地适应当前高度动态的网络环境。深度强化学习(Deep Reinforcement Learning,DRL)具有自主探索周围环境,寻找最优策略的特点,因而特别适合用于拥塞控制。近年来,研究人员开始将DRL应用于拥塞控制问题。但既往基于DRL的方法具有以下问题:未考虑无线接入网的特殊性;应用了在实际中不一定成立的假设;难以采用单智能体同时控制多条TCP连接的发送速率;采用多智能体DRL方法时难以合理地定义各个智能体的局部奖励函数等。本论文基于DRL对拥塞控制问题进行了深入的研究。本论文首先采用单智能体DRL尝试解决以往方法的存在问题,进而提出了DRL-3R。该方法引入了无线接入网信息作为拥塞控制的参考信息,并提出了相关预测方法,从而使得智能体对这一具有高度动态特性的潜在瓶颈直接认知,从而采取动作以适应其动态特性;定义了反映多个连续动作的延迟奖励函数,引入了时间维度奖励函数再分配,以放松既往方法中的不合理假设,并更好地评估智能体采取的动作的效果;提出了对经典DRL方法的改进方法,以更好地匹配拥塞控制问题的特点。实验结果表明DRL-3R在吞吐量、时延和公平性指标上相比于以往方法均取得了优异结果。本论文进一步考虑将多智能体DRL用于拥塞控制问题。多智能体DRL可以并行地对多条TCP连接的发送速率进行控制,从而相比于单智能体DRL具有更高的计算效率。本论文提出了空间维度奖励函数再分配,并结合多智能体深度确定性策略梯度提出了DRL-MARR。该方法定义了一个反映所有智能体整体性能的全局奖励函数,在其基础上采用空间维度奖励函数再分配具体评价每个智能体的贡献,从而避免了对局部奖励函数的直接定义。实验结果表明DRL-MARR在吞吐量、时延和公平性指标上相比于以往方法均取得了优异结果。
其他文献
脓毒症被定义为“由宿主对感染反应失调而导致的危及生命的器官功能障碍”。尽管脓毒症的治疗在过去几年中发展迅速,但临床治疗中脓毒症的发病率和病死率仍在攀升。此外,由于脓毒症的表现形式多样,临床医生在脓毒症患者的诊断、治疗和管理方面仍面临严峻挑战。文章综述了对脓毒症早期诊断或对疾病的严重程度及预后评估有潜在价值的生物标志物,包括传统的与感染相关的生物标志物:降钙素原、C反应蛋白、细胞因子等;与炎性反应激
期刊
太赫兹技术作为一种新兴技术,被广泛地运用于传感成像、生物医疗、物质检测和高速无线通信等领域。太赫兹波的生成可以通过电子学和光子学两类方法。近年来,基于光外差原理获得太赫兹波辐射的光子学方法得到了学术界的大量关注。光外差法产生太赫兹波的基本原理是利用两路频率差处于太赫兹波段的激光信号进行合波拍频,利用集成天线的光混频器件将拍频信号转化成太赫兹波信号辐射出来。光外差法是一种简单有效的太赫兹波辐射方法。
学位
<正>安全稳定的校园环境是保证高校教学平稳实施的关键,同时也有利于学校形象品牌的建设。校园安全工作要建立安全防护体系,针对各类安全事件树立危机意识,制定防控措施。平安校园的创建对保障师生安全、维护学校稳定意义重大。一、校园安全问题的类型及成因随着时代发展,校园和社会联系日益紧密,各类不安全因素也在不断增加。因此,分析校园安全问题,确保校园的安全稳定是学校发展的前提和保障。只有在安全稳定的大局下,广
期刊
<正>学校在进行教育教学工作的过程当中,学生的心理健康教育是不可或缺的一部分。教师、家长和学生自身都会对学生的心理健康教育进行有效影响,教师与家长发挥着至关重要的作用,朋友会对学生进行一定程度上的心理辅导,另外学生也要对自身进行教育,这样才可以使自身的心理达到健康的理想效果。中学生的心理健康教育是十分重要的,良好的心理状态才可以为学习生活打下良好的基础,从而使自身的综合素质得到有效提高,推动全面发
期刊
<正>【任务群解读】高中语文教材必修上第七单元“自然情怀”,和同册的第一、三两个单元,同属“文学阅读与写作”任务群。课标中明确,该任务群要引导学生阅读古今中外诗歌、散文、小说、剧本等不同体裁的优秀文学作品,使学生在感受形象、品味语言、体验情感的过程中提升文学欣赏能力,并尝试文学写作,撰写文学评论,借以提高审美鉴赏能力和表达交流能力。其主要的学习目标和内容有:1.精读古今中外优秀的文学作品,感受作品
期刊
现今社会正在快速进入5G物联网时代,作为物联网技术重要组成的感知技术,也迅速地向智能化、网络化、全方位立体感知方向发展。在感知技术中,分布式光纤传感器因其体积小、抗电磁、耐腐蚀、耐高温等优势有着巨大的发展潜力。光频域反射计(Optical Frequency Domain Reflectometry,OFDR)作为分布式光纤传感器的分支,更是以高精度,快速的动态响应等特性从各种传感器中脱颖而出,吸
学位
随着信息化时代的飞速发展,太赫兹(THz)技术受到越来越多的研究关注,部分突破性成果已成功应用于通信、雷达、成像、谱分析等领域。太赫兹波介于微波和红外波之间,相较于微波,太赫兹波的频谱资源更加丰富,能为通信提供更高的载频、更快的速率,也能为雷达提供更大的带宽;相较于红外等更高频光波,太赫兹波具有更低的光子能量、更好的安全性、更强的穿透性。然而,受限于目前太赫兹的收发技术手段和效率,太赫兹信号的分析
学位
情绪识别技术在人机交互、医学应用等领域具有广阔的应用前景。赋予计算机理解人类情绪的能力将使得计算机在各种应用中更有意义和强大。皮肤电势(Skin Potential,SP)信号是一种记录皮肤电反应过程的生理信号,在过去曾被证实与人类情绪有关,可能具备应用于情绪识别领域的潜力。然而,一直以来对该信号关注的不足导致其缺乏深入系统的研究。基于此,本文对皮肤电势信号的性质特征进行了研究并提出了一种基于皮肤
学位
图像着色课题的研究目标是对灰度图像或黑白线稿添加颜色,可以应用于医学影像着色、老照片色彩重建、漫画线稿着色等场景,具有丰富的实际应用价值。近年来,受到深度学习发展的推动,出现了许多出色的着色模型,但是其着色结果仍存在着颜色混杂、溢出和细节缺失等问题。因此,本文针对漫画线稿着色这一应用场景及当前主流着色算法存在的问题,提出了两种基于生成对抗网络的交互式线稿着色方法,可以根据参考图像的颜色分布对漫画线
学位
随着生活水平的提高和日益增长的需求,用户对端到端时延、峰值速率和移动性等有了更苛刻的要求,新一代通信技术(5G)应运而生。面对如此多样化的性能需求,3GPP组织确定了5G三大主要的应用场景:增强型移动宽带(e MBB)、大规模机器类通信(m MTC)和超可靠与低时延通信(URLLC),并且将LDPC码和极化码作为e MBB场景的信道编码方案。在2019年底后续演进方案中,Release-17标准明
学位