基于深度强化学习的异构云无线接入网资源分配算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fanleejohn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了满足5G网络的高速率、高可靠和低时延的要求,异构云无线接入网(H-CRAN)是未来5G网络发展的必然趋势。通过资源虚拟化和集中式分配方式,进一步提高网络频谱效率和能效,从而实现更高的吞吐量性能。然而,无线资源的动态特性和无线网络环境的复杂性给资源优化策略带来了极大的挑战,网络自优化是实现资源合理、快速、按需分配的关键。本文基于深度强化学习理论对异构云无线接入网络的资源分配问题进行研究,主要研究内容和创新点如下:1.为了满足无线数据流量大幅增长的需求,实现无线资源的动态分配,提出一种基于深度强化学习(DRL)的无线资源分配算法。首先,该算法以队列稳定为约束,联合优化拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型。其次,考虑到调度问题的复杂性,系统的状态空间和动作空间具有高维特征,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾问题。最后,针对无线网络环境的复杂性和多变性,引入迁移学习(TL)算法,利用TL的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外,TL通过迁移DRL模型的权重参数,进一步地加快了DRL算法的收敛速度。仿真结果表明,所提算法可以有效地增加网络吞吐量,提高网络的稳定性。2.针对异构云无线接入网络的频谱效率和能量效率问题,提出一种基于PD-NOMA的能效优化算法。首先,该算法以队列稳定和前传链路容量为约束,联合优化用户关联、功率分配和资源块分配,并建立网络能效和用户公平的联合优化模型。其次,由于系统的状态空间和动作空间都是高维且具有连续性,研究问题为连续域的NP-hard问题,进而引入置信域策略优化(TRPO)算法,高效地解决高维动作空间以及连续域问题。最后,针对TRPO算法的标准解法产生的计算量过于庞大,采用近端策略优化(PPO)算法进行优化求解,PPO算法既保证了TRPO算法的可靠性,又可以有效地减少TRPO的计算复杂度。仿真结果表明,所提算法在保证用户公平性约束下,进一步提高了网络的能效性能。
其他文献
育秧播种机作为提高水稻作物产量的重要设备,气吸振动盘式育秧播种机因为其不伤种,无需分级挑选种子的优势,得到了广泛的应用。随着我国农业自动化技术的不断发展,气振盘式育
本文是一篇中英交替传译任务实践报告。本次实践任务为网络点播央视《走进科学》栏目科普纪录片,并现场进行中英交替传译。所选取的节目《地球上的千里眼》围绕天文科技主题
合成孔径雷达(SAR)是目前遥感成像领域的主要技术形式,具有全天时、全天候、全球覆盖成像观测能力等优点。但是作为合成虚拟孔径的必须手段,合成孔径雷达体制下的微波成像技
随着数字视频处理技术以及网络技术的进步,我们能够接触到越来越多的高清视频信息。与此同时,云计算因其良好的灵活性、扩展性和易用性,逐渐得到了广泛的使用。其中,云存储是
目前3D角色动画在多个领域得到了广泛的应用。骨骼动画是生成角色动画的主要途径之一。但是骨骼动画制作所需的骨骼运动数据存在采集量有限而需求量无限的矛盾。为解决这一矛
氘(D)-氚(T)热核聚变具有大规模实现能源可持续生产的潜力。正在建造的国际热核聚变实验堆(ITER)及中国聚变工程实验堆(CFETR)是用于验证氘-氚聚变能源可行性的磁约束等离子
帕金森病(Parkinson’s disease,PD)的主要病理特征为中脑黑质(substantia nigra,SN)区多巴胺(dopamine,DA)能神经元丢失,残存神经元内出现以Alpha-突触核蛋白(alpha-synuclein,α-syn)为主要成分的路易小体(Lewy bodies,LBs),纹状体(striatum,Str)区DA释放减少。其主要临床表现有运动症状,包括:震颤麻
帕金森病(Parkinson’s disease,PD)是一种常见的神经退行性疾病,其主要的病理特征为黑质致密带(substantia nigra pars compacta,SNc)多巴胺(dopamine,DA)能神经元进行性的
科学技术推动了人类文明的极大进步,尤其是如今的信息时代,以计算机为基础的网络技术成为影响人类社会变化发展的主要技术形式。网络技术是一把双刃剑,一方面给人类的生活带
无线传感器网络(Wireless Sensor Network,WSN)是由众多的传感器节点通过自组织和多跳的方式构成的无线智能网络,传感器节点可以协作探测、采集监控区域的各种信息,处理后通