无线网络中基于马尔可夫决策过程的资源管理研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术和物联网技术的迅速发展,无线通信设备的数量呈爆炸式增长。海量的无线通信设备不仅会产生巨大的能量消耗,同时还会对无线通信网络的带宽资源和计算资源有极大的需求。然而,无线通信网络的带宽资源是有限的,单纯地增大能量和计算资源的投入不但很难满足无线通信设备对其日益增长的需求,而且会增加运营成本,造成资源的浪费。合理的资源管理方法能够在满足无线通信设备业务需求的基础上大大地降低资源的开销。资源管理方法可以分为时间点上的管理方法和长时间资源管理方法。时间点上的资源管理方法不考虑当前决策对未来决策的影响,因而不能产生时间上的资源调度增益。一种长时间资源管理方法是假设一段时间内影响决策的环境信息已知,利用静态优化的方法求解每一步的最优决策。因为无线通信环境是随机的,未来时刻环境信息已知的假设在实际中无法实现。还有一种长时间资源管理方法假设环境信息是随机的,但不同时间点上的信息服从独立同分布。这种假设下的决策策略没有考虑无线通信环境信息的时间相关性。本文利用马尔可夫决策过程(Markov Decision Processes,MDP)建模无线通信中的资源管理问题,假设相邻决策时刻的环境信息具有马尔可夫性,充分考虑环境信息的时间相关性,是建模随机序贯决策问题的有效方法。在本论文中,利用马尔可夫决策过程或半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)建模射频能量(Radio-Frequency,RF)收集通信,可再生能量收集通信以及云-雾计算系统中的资源管理问题,并利用基于模型的规划算法或免模型的强化学习算法求解最优资源管理策略。首先,研究了专用射频能量源供电的低功耗传感器能量分配问题。由于电磁波在无线信道中衰落严重,专用射频能量源能够近距离提供充足的射频能量。考虑两种常用的传感器工作模式,分别是频分复用模式和时分复用模式。因为射频能量传输链路较短且存在视距路径,所以假设射频能量传输信道服从莱斯分布。假设信息传输信道只存在散射链路,因而将其建模为瑞利衰落信道。将两条信道的功率增益离散化并分别建模为有限状态马尔可夫链。用离散时间无限阶段折扣马尔可夫决策过程描述能量收集和信息传输过程,用值迭代算法搜索渐近最优策略。在频分复用模式下的渐近最优策略中,理论证明了传感器发射能量随着电池能量状态的增大而单调非减。利用这种单调性简化了渐近最优策略的搜索范围,降低了迭代算法复杂度。相比之下,时分复用模式不存在这种单调性,对此作了仿真验证并给出了造成这种结果的原因。其次,研究了太阳能辅助的异构网络,并提出了基于半马尔可夫决策过程的下行数据包调度策略。分析了影响太阳能辐射强度的因素,用连续时间马尔可夫链(Continuous-Time Markov Chain,CTMC)建模太阳能辐射强度变化过程。用泊松过程建模下行数据包到达过程。推导了电池、太阳能辐射强度和事件的复合决策状态的转移概率和折扣转移概率,利用平均准则下的相对值迭代算法和折扣准则下的值迭代算法求解了渐近最优数据包调度策略。然后,利用半马尔可夫决策过程对云-雾计算系统的虚拟机分配问题进行了建模,并分别采用基于模型的规划算法和免模型的强化学习算法求解渐近最优虚拟机分配策略。在执行规划算法之前,需要训练状态转移概率和相邻决策时刻之间的期望时间间隔。对于一般化的半马尔可夫决策过程,模型的训练是相当困难的,尤其在系统具有大规模状态空间或行动空间的情况下。为了方便训练模型,将半马尔可夫决策过程退化为连续时间马尔可夫决策过程(Continuous-Time Markov Decision Process,CTMDP)。在这种情况下,只需要训练服务请求到达率和服务结束率就可以推导出状态转移概率和相邻决策时刻的期望时间间隔。此外,提出了免模型的强化学习算法求解最优虚拟机分配策略。这种方法是通过学习反馈的状态和收益来逐渐逼近最优策略。仿真结果显示免模型的强化学习算法能够收敛到与基于模型的规划算法相近的水平。最后,利用受约束半马尔可夫决策过程建模无线接入云-雾计算系统的时延约束条件下虚拟机与无线带宽联合分配问题,并利用多时间尺度行动者-评论家(Actor-Critic)强化学习算法更新策略参数,值函数参数以及拉格朗日乘子,从而不断改进约束条件下的资源分配策略。
其他文献
随着全球能源互联网的快速发展,电网互联逐渐成为未来各国、各大洲电网的发展趋势。虽然电网互联有利于全球一体化发展战略的实施,促进全球经济命运共同体的实现,但是,大规模
本文以紧邻既有京广铁路深大基坑为工程背景,采用现场测试、室内模型试验及数值模拟等多种研究手段,分析了锚索预应力损失影响因素,研究了锚索预应力变化特征,着重对列车振动
原油市场对金融市场都有重大影响,尤其是金融危机之后,原油市场与股票市场相关性日益增加,因此研究原油市场和股票市场之间的波动溢出对于能源政策制定者、市场参与者、投资
《关于依托黄金水道推动长江经济带发展的指导意见》指出长江经济带区域协调发展不仅关乎长江流域上、中、下游地区的优势互补,也关乎东、中、西部地区间的协作互动。不仅标
中国特色社会主义事业已经进入新时代,实施主体功能区战略、推进主体功能区建设是党中央国务院作出的重大战略决策。主体功能区规划是刻画我国未来国土空间开发与保护格局的
经济政策是经济学研究的重要领域,制定调控宏观经济运行的宏观政策以及调节微观经济主体行为的微观政策是政府治国理政的重要手段。政策干预是否有效取决于政策的制定水平,为
移动互联网和物联网的迅猛发展驱动移动通信系统向更大连接数密度、更好通信传输性能和更高系统容量方向发展。为了应对移动通信系统面临的诸多挑战,异构蜂窝网络(Heterogene
早期税收遵从研究建立在预期效用最大化假设基础上,强调税务审计和制裁对纳税人行为的影响。而在现有执法力度下,纳税人实际税收遵从水平远高于预期效用模型(A—S模型)计算出
与传统能源相比,核反应(尤其是聚变反应)过程中单位质量所释放出的能量巨大。核聚变反应所需要的原料氘在海水中含量非常丰富,且聚变产物放射性低、污染较少,所以核聚变能是
车轴在服役过程中,由于承受多种应力载荷和介质腐蚀作用,出现不同程度的损伤,从而导致车轴报废。为适应节约型经济,对车轴进行修复成为亟不可待的课题。激光熔覆有热输入低、