基于强化学习的缓存策略研究

来源 :广州大学 | 被引量 : 3次 | 上传用户:wa0002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,无线数据流量急剧增加,导致当前的无线网络基础设施难以处理如此巨大的数据,特别是在高峰通信期间。无线缓存技术被提出来减缓流量负载,其基本思想是在非高峰时间将最受欢迎的文件预先缓存到无线节点中。以缓存辅助蜂窝网络为例,如果请求的文件预先存储在小基站(Small Base Station,SBS)中,SBS可以直接将文件发送给用户,从而减少回程链路负载。对于无线缓存技术,最为重要的问题是如何设计缓存策略,即预先存储哪些文件到哪些无线节点。关于这个问题,我们的主要研究如下。首先,我们研究无线缓存技术的产生背景、常见缓存策略、文件流行度设置和性能评估标准,接着研究单智能体和多智能体强化学习的基础概念和经典算法。其次,我们研究异构蜂窝网中的概率缓存放置问题。该异构网络中存在几种类型的基站,并且每种类型的基站具有不同的存储容量。我们通过引入平均服务成功概率来衡量网络传输性能。根据随机几何、齐普夫公式和信噪比覆盖模型,我们基于缓存命中概率和成功传输概率得到平均服务成功概率的表达式。然后通过优化概率缓存放置问题来最大化系统中的平均服务成功概率。由于这个优化问题是非凸的,我们转而使用启发式算法来解决缓存放置问题。仿真结果表明,所提出的策略优于传统的最流行内容(Most Popular Content,MPC)缓存策略。最后,我们研究缓存辅助网络中基于多智能体强化学习的分布式缓存策略,该网络中的所有无线节点通过协作优化分布式缓存策略,来最大化以平均缓存命中概率为衡量标准的网络性能。具体来说,我们首先将分布式缓存策略问题建模为完全合作的重复博弈,然后分析如何提高多智能体强化学习框架下的平均缓存命中概率。进一步的,我们提出了基于频率最大Q值(Frequency Maximum Q-value,FMQ)的缓存策略和基于分布式Q学习(Distributed Q-learning,DQ)的缓存策略以优化分布式缓存策略。仿真结果表明,所提出的基于FMQ的策略显着提高了平均缓存命中概率,而所提出的基于DQ的策略可以收敛到最优策略。此外,所提出的基于FMQ和基于DQ的策略不仅优于基于Q-learning的策略,而且优于概率缓存放置和MPC策略。
其他文献
通过N,N′-羰基二咪唑(CDI)直接将聚己二酸丁二醇酯(PBA-1000)与糠胺(FA)相连制备得到呋喃环封端的聚氨酯预聚物(PCF),之后以双马来酰亚胺(BMI)为扩链剂通过DA反应制备出一种
本文通过构建嵌入政府质量和文化资本因素的经济增长模型,利用中国28个省份2000-2012年的面板数据,从数量和质量双重视角对比检验政府质量、文化资本对地区经济发展的影响。
基于实际系统参数搭建仿真模型,通过模拟仿真并观测保护测量阻抗的轨迹图,研究次同步谐振对距离保护的影响。研究表明,次同步谐振对距离保护Ⅰ段有影响,而对Ⅱ、Ⅲ段没有影响
为能够快速、准确地对不同品种(系)凤凰单丛茶进行鉴定,建立不同品种(系)凤凰单丛茶的DNA指纹图谱,本研究利用ISSR分子标记技术,以4份凤凰单丛茶品种为材料,对UBC802~UBC899
<正>随着中秋节和国庆节日临近,郑州的终端销售和批发业务逐渐增多,预计在10月上旬迎来销售的高峰。为备战"双节"销售,各大玩具生产企业纷纷将新品推向市场:叶罗丽的灵公主、
期刊
本文针对当前高师院校学生教师职业技能薄弱的现状,提出了解决问题的三条对策:一、强化高师学生教师职业技能培训的目标管理;二、强化高师学生教师职业技能培训的过程管理;三
综观淹水及添加有机物料对土壤镉活性有升和降等行为,对淹水稻田硫化镉沉淀机制提出了质疑,为此本文对淹水还原过程中铁氧化物的形态转化带来的镉组分再分配的机制进行了论证
本课题目的在于针对我国普遍存在的高氟水问题,以一种能适用于广大农村地区饮用水处理的廉价、高效、安全、简便的新型吸附剂为基础,通过一系列的实验考查此吸附剂吸附状况,
在50具100侧成人尸体上测量了颈外动脉及其主要分支起始部的管经,至颧弓上缘水平的距离以及至颈总动脉分叉处的距离,观察了颈外动脉主要分支的起始状况,为经颞浅动脉作颈外动
近年来,含硅聚合物由于其特殊的化学性质而成为科研热点。文章进行了烯丙氧基三甲基硅烷的均聚以及其分别与甲基丙烯酰氧乙氧基三甲基硅烷和乙酸乙烯酯单体的共聚研究。用凝