基于双深度强化学习的切换算法分析

来源 :无线互联科技 | 被引量 : 0次 | 上传用户：t739155593

【摘要】

：

【作者】

：

董春利王莉

【出处】

：

无线互联科技

【发表日期】

：

2021年15期

【关键词】

：

双重深度强化学习切换管理毫米波通信

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：由于包括毫米波频率，导致5G网络中的切换更具挑战性，基站（BS）部署更加密集。由于毫米波BS的占用空间较小，进一步增加了切换的数量，从而使切换管理成为一项更关键的任务。因为随着切换数量的增加，降低了服务质量（QoS）和体验质量（QoE），以及更高的信令开销。文章讨论了一种基于双深度强化学习（DDRL）的离线方案，以最小化毫米波网络中切换的频率，从而减轻不利的QoS。由于考虑到的5G环境的固有特性，会产生连续且大量的状态空间，因此与传统的 Q学习算法相比，DDRL更可取。
　　关键词：双重深度强化学习;切换管理;毫米波通信
　　0 引言
　　数量众多的状态和动作会产生两个问题。第一个问题是随着状态数量的增加，存储和更新状态动作表所需的内存量也随之增加。其次，探索每个状态以准确填充Q表所需的时间显著增加。Q学习的另一个局限性是它只能在具有离散和有限状态和动作空间的环境中工作，这意味着Q学习无法估计任何未学习状态的Q值[1]。
　　1 基于DDRL的最佳基站（BS）选择
　　有学者指出，可以通过大量的动作和连续状态来有效地进行操作，用不同的方式来实现RL[2]。新架构利用人工神经网络（ANN）来存储状态和状态动作值。给出状态作为输入，并生成状态动作值，该值是所有可能动作的Q值，作为给定观察状态的输出。本文出于两个主要原因，采用了双深度强化学习（DDRL），而不是 DRL。DRL在某些游戏中存在严重的高估问题，其次基于环境的设计，运行两种算法后，得出与Van等专家相同的结论，在结果部分中包含了DDRL和DRL之间的比较结果[3]。
　　DDRL是使用和维护两个单独的深度Q网络（DQN）的RL算法。DQN是多层感知器神经网络，它针对给定的输入状态s估计输出动作值Q（s，a;θ），其中θ是网络的参数。根据Van等专家的研究，DDRL的两个独立网络是目标网络和在线网络[3]。参数为θ-的目标网络与在线网络相同，不同之处在于其参数每隔τ步从在线网络更新一次，使得θt-=θt，并在所有其他步骤中保持固定。DDRL通過分解目标网络中的最大操作为动作选择和动作评估，来减少过高估计。因此，根据在线网络评估贪婪策略，并在目标网络中估计值。该算法的重要内容解释如下：
　　（1）动作：动作定义为发生A2事件时要连接的BS。将动作空间（a∈A（s））中的动作定义为状态s下，服务BS指标的标量表示，集合A包括环境中的所有BS。
　　（2）状态向量：传统上，移动性管理和其他BS关联策略通常考虑UE的位置，以将其与服务BS关联。但是，这项研究考虑了UE从所有周围BS接收到的SNR的组合，以表示感兴趣的位置，而不是UE的确切位置（即UE位置的地理坐标）。实际上，获取UE的确切位置是不切实际的。因此，可以沿着UE轨迹的所有BS中的γ视为关注点的代表，而不是地理坐标。
　　（3）奖励设计：奖励设计是为了激励智能体采取行动，从长远来看将使累积奖励最大化，并且因为我们的目标是在给定的轨迹上实现最大的系统吞吐量（T）。可以通过最小化切换成本（βc）来最大化T。为了使βc最小，对于给定的速度（v）和切换时间延迟（td），参数H1应尽可能小。可以通过实现切换跳过策略来控制参数H1。从技术上讲，智能体在不设置恒定值的情况下启动间接触发时间（TTT），并且应该智能地完成此过程以确保UE达到最大吞吐量，而无须跳过某些必要的切换。此方法已用于4G之前的微基站和宏基站，并且手动确定了TTT参数。另外在切换期间，使T最大化的同时，最小化βc的值，在满足约束γs≥γth的情况下，智能体可以选择将来事件A2的数目较少的BS，称为有远见的切换决策。
　　（4）经验重放：经验重放的目的是克服学习算法的不稳定性。经验重放用于更新深度Q网络，以便在基于监督学习的更新过程中，同时考虑当前和以前的经验。这意味着在训练过程中不仅要考虑从当前在线学习网络获得的样本（s， a， r， s’），还要考虑旧经验样本（s， a， r， s’）。因此经验重放会在一段时间内存储观察到的过渡，并从该存储库中统一采样以更新网络。
　　（5）学习算法：智能体如何与环境交互？在毫米波环境中，对于每个UE而言存在大量的BS，障碍物的出现主要是初始化事件A2。因此提出的解决方案确保当事件A2启动时，UE便会切换到它的视距（LOS）连接畅通时间较长的BS或智能地跳过切换。提出的解决方案涉及两个阶段：学习阶段和执行阶段。
　　在学习阶段，使用离线学习，智能体通过模拟环境中的UE轨迹来收集必要的信息。智能体模拟从UE路径的起点到终点的轨迹，并且智能体以尝试错误的方式执行切换。值得注意的是，我们假设轨迹感知的切换，因此，UE采取的路径是明确已知的，并且在切换期间，如果跳过切换导致最大的累积奖励，则智能体可以选择提供少于γth的相同BS。通过反复试验，智能体可以并行了解两件事：首先，在切换事件中，与UE连接的哪个BS最好;其次，如果要发生切换，则在γs≥γth的情况下，在确定目标BS之前，UE应当保持多长时间与BS连接，后一信息可用于制定主动切换决策。
　　2 DDRL算法的智能体学习过程
　　该算法从智能体观察环境状态和服务类型开始。具体地，在训练阶段，UE根据所述条件之一，采取动作a。如果满足条件γs≥γth，则UE继续服务于BS;否则UE使用“贪婪策略”，以小于探索率的概率ε和随机方式选择BS;否则它将使用策略arg max Q （s， a; θ）选择BS。UE接收奖励r，并移动到下一位置p+1。在新位置中，UE生成状态sp + 1，在当前状态和相同过程从头开始，并且受到上述相同规则的控制。经验过渡样本（s， a， r， s’）存储在重放存储器缓冲区D中，以进行经验重放。该过程一直持续到达到最终状态为止，并且另一个迭代开始直到学习结束。经过一些学习步骤后，ε将从1降低到0.1。　　在执行阶段，智能体根据上述规则采取行动a。但是ε设置为0.002，这意味着智能体使用0.2%的时间进行探索，而其余时间使用arg max Q （s， a; θ）的策略。在模型的评估阶段，使用相同的环境，但更改了表示轨迹中UE位置的点，以测试模型的鲁棒性和泛化行为。值得注意的是在执行阶段没有学习更新。但是，为了使控制器使用新数据集进行更新，UE会持续将观察状态发送到控制器以更新在线策略。
　　3 结语
　　本文为UDN场景中的毫米波通信，提供了一个智能的切换管理框架，以最大限度地减少切换发生的频率，从而提高用户的QoS。尤其是提出了一种具有离线学习框架的DDRL算法，以便利用历史用户轨迹信息来制定一种策略，通过同时考虑切换的数量和系统吞吐量来确保在切换期间选择最佳BS。
　　[参考文献]
　　[1]MICHAEL S M，ATTAI I A，METIN O.Intelligent handover decision scheme using double deep reinforcement learning[J].Physical Communication，2020（42）：101-133.
　　[2]DULAC A G，EVANS R，VAN H H，ET AL.Deep reinforcement learning in large discrete action spaces[J].Computer Science，2015（v1）：1512.
　　[3]VAN H H，GUEZ A，SILVER D.Deep reinforcement learning with double Q-learning[J].Computer Science，2015（A）：1509.
　　（編辑傅金睿）
　　Handover algorithm analysis based on dual deep reinforcement learning
　　Dong Chunli， Wang Li
　　（College of Electronic Information Engineering， Nanjing Vocational Technical Institute of Traffic， Nanjing 211188， China）
　　Abstract：Handovers （HO） have been envisioned to be more challenging in 5G networks due to the inclusion of millimeter wave （mm-wave） frequencies， resulting in more intense base station （BS） deployments. This， by its turn， increases the number of HO taken due to smaller footprints of mm-wave BS thereby making HO management a more crucial task as reduced quality of service （QoS） and quality of experience （QoE） along with higher signalling overhead are more likely with the growing number of HO. In this paper， we propose an offline scheme based on double deep reinforcement learning （DDRL） to minimize the frequency of HOs in mm-wave networks， which subsequently mitigates the adverse QoS. Due to continuous and substantial state spaces arising from the inherent characteristics of the considered 5G environment， DDRL is preferred over conventional Q-learning algorithm.
　　Key words：double deep reinforcement learning; handover management; millimeter-wave communication

其他文献

基于优课联盟的“图像处理技术”课程教学探索

"图像处理技术"是信息工程类专业最为重要的课程之一,同时是计算机视觉的核心基础课程。在新一轮科技与产业革命中,计算机视觉有关新兴产业飞速发展,但传统教学已逐渐跟不上步伐。针对教学过程中理论教学与实践教学不适配、互动性不足、反馈不及时和教学内容与模式滞后等问题,结合优课联盟的线上平台,开展线上+线下教学模式探究,线上教学以视频学习与后台数据追踪为主,线下教学以答疑与反馈调整为主。针对线上+线下模式进

期刊

图像处理技术教学改革优课联盟

建筑类型学视角下城市遗址保护利用的方法探究r——以交河故城为例

目前,我国正处于快速城市化阶段,古城遗址的保护利用和城市发展之间的关系备受关注,如何针对古城遗址进行合理的保护利用成为研究的焦点.文章首先简述建筑类型学的发展历程,

期刊

建筑类型学城市遗址保护利用交河故城

融合人工智能的“网络安全技术”教学探索

摘要：现阶段我国在网络安全技术方面已经有一定的发展规模，但由于自身起步较晚，与真正的人工智能技术强国相比还存在着较大的差距。例如在专业课程的建設上不够完善，导致人才的培养工作质量低下等。要想解决这样的问题，学校急需与科技企业合作，建立人工智能与网络安全学科相结合的新型教学体系，并通过对网络安全学科的学习与研究，制定出能够符合当今网络安全要求的教学办法，让网络安全技术紧跟时代发展，为国家和社会做出

期刊

人工智能网络安全教学探索

基于碳效益评价的小城镇产业空间规划研究r——以四川省金堂县为例

随着全球气候变暖问题的日益严重和中国城镇化的快速发展,控制小城镇与日俱增的碳排放量则尤为重要.文章依托多源数据,以四川省金堂县为例,对其产业空间碳效益进行评价分析.

期刊

县域小城镇碳排放碳效益产业空间规划优化策略

基于ZigBee的输液提醒远程监控系统设计与实现

摘要：为了使医院输液智能化、方便化，文章设计了一套基于ZigBee的输液提醒远程监控系统减轻医护人员负担，由水位监测模块、ZigBee远程监控系统、K60单片机等组成。该系统用液位检测器监控输液进度，步进电机控制换液，输液工作完成后蜂鸣器自动发出警报，ZigBee通信模块实现远程监测的功能。该产品设计方案整体结构简单，体积小，易于操作，成本低，装置可重复使用无需每次消毒灭菌，操作方便，安全可靠。

期刊

自动换液循环使用自动报警ZIGBEE模块

5G+智慧安全在化工行业的应用

摘要：文章主要介绍了5G技术的特点，分析了5G技术在智慧安全环保管控平台的创新，描述了5G安全专网、MEC边缘云的设计以及5G+智慧安全在化工领域的作用，最后介绍了基于5G安全专网的智慧安全环保管控平台在某石化公司使用和取得的成效。　　关键词：5G;安全;化工　　1 智慧安全环保管控平台与5G技术结合的必然性　　1.1 5G技术特点　　第五代移动通信系统（5G），给人们的工作生活带来了巨大的变

期刊

5G安全化工

基于Labview的水泥回转窑红外测温监控系统设计

摘要：为了满足水泥生产中回转窑温度安全监控的工艺要求，文章设计了一种基于Labview的水泥回转窑红外测温监控系统，建立了具有红外扫描传感、虚拟仪器监控及网络云数据共享等功能的监控平台，采用多功能的Labview进行软件设计，经实践生产验证，该系统运行稳定，可靠性高，满足水泥窑红外测温监控的安全生产要求，与传统温控设备相比，提高了监控设备的智能化水平和企业的安全生产效率。　　关键词：水泥回转窑;

期刊

水泥回转窑红外测温LABVIEW温度监控

基于Retinex增强算法的图像去雾方法研究

文章讨论了雾霾天气下的图像清晰化技术,首先对图像去雾的背景和理论基础进行了介绍,然后分别利用全局直方图、局部直方图和Retinex增强处理雾天图像的清晰化技术进行实验。实验结果表明,基于Retinex增强处理的去雾方法针对性强,运行效率高,且易于融合其他图像增强算法。文章讨论的去雾技术对其他恶劣天气下的图像清晰化技术也起到促进作用。

期刊

图像去雾直方图RETINEX

高职院校共享实训室智能管理系统分析与设计

摘要：共享实训室管理是高职院校教学管理工作中的一项重要内容，高职院校共享实训室作为重要的教学场所，直接关系到教学的质量与效果。使用共享实训室智能管理系统，解决传统管理模式中教学实训室冲突、资源浪费、人力不足、维护不及时等问题，节约了教学资源，提高了共享实训室的设备使用率。　　关键词：共享实训室;智能管理;系统分析　　0 引言　　近年来，各高职院校对校内共享实训室建设的投入不断加大，各高职院校的

期刊

共享实训室智能管理系统分析

计算机网络技术在电子信息工程中的实践

摘要：计算机网络技术已经在各行各业得到非常广泛的应用，有效地推动了各个行业的发展创新。在电子信息工程领域应用计算机网络技术，能够对该领域的发展起到推动作用。文章在介绍计算机网络技术与电子信息工程相关概述的基础上，对计算机网络技术在电子信息工程中的实践价值、实践思路以及实践层面进行了探讨。　　关键词：电子信息工程;计算机网络技术;实践　　0 引言　　网络技术和计算机技术相融合，实现了人们信息交流

期刊

电子信息工程计算机网络技术实践

基于双深度强化学习的切换算法分析

与本文相关的学术论文