基于机器学习的认知无线网络接入与资源分配技术研究

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:huming_72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益增长的无线通信应用需求对于无线网络性能的要求越来越高,借助个体用户频谱感知、动态接入等认知组网行为中产生的数据,加以融合机器学习等智能化技术,将成为提高无线网络性能的主要发展方向。本文围绕认知无线网络中媒体接入控制(MAC,Medium Access Control)协议和资源分配策略展开研究,采用基于机器学习方法使认知用户能够自主地解决以下三个问题:如何在不同的网络场景中选择合适的MAC协议,如何在基于CSMA/CA接入方式的网络中选择最优无线信道资源,如何在基于TDMA接入方式的网络中选择最优时隙资源,从而提高网络吞吐量性能。本文的主要研究工作和成果如下:针对在集中式认知无线网络场景下单一类型MAC协议应用受限,无法适应网络动态变化的问题,论文提出了一种基于分类学习的MAC协议选择模型。该模型采用监督学习方式,将整个协议选择过程分为学习阶段和决策阶段,这两个阶段迭代进行,可以自主选择不同的MAC协议以适应不同的网络场景。首先,本文选择竞争机制类有代表性的载波监听多址接入/冲突避免(CSMA/CA,Carrier Sense Multiple Access with Collision Avoidance)协议和非竞争机制类有代表性的时分多址接入(TDMA,Time Division Multiple Access)协议作为分类模型备选协议,分析了不同接入方式的MAC协议所适用的网络环境。其次,利用模糊集理论定义了协议选择的评判标准,提出了以MAC协议隶属度作为认知用户是否需要改变当前MAC协议的依据。在学习阶段,首先,收集网络环境参数和认知用户参数用于构建参数特征数据集合,并且收集执行当前MAC协议对应的统计量结果用于构建统计量特征数据集合。其次,利用多粒度知识增量获取算法合并特征数据集合,得到用于分类学习的特征数据集合。然后,利用测试集比较不同分类学习算法对MAC协议选择模型的匹配程度,选择合适的分类算法用于构建分类器。在决策阶段,首先,研究了不同样本特征项对于模型分类准确性的贡献率,并以贡献率高的特征项作为模型分类选择的性能评判指标。其次,将需要决策的样本经过分类器,得到目标分类结果,从而选择出最适合当前网络场景的MAC协议。仿真结果证明,论文提出的MAC协议选择模型能有效地对不同网络特征样本进行分类,帮助认知用户选择最适合当前网络的MAC协议。针对基于CSMA/CA接入方式的认知无线网络信道选择问题,并综合考虑多认知用户竞争接入的影响,提出了一种基于非合作博弈的在线决策信道选择算法。该算法的决策过程采用半监督学习方式,可以在减少控制与协商消息交互的前提下,使得认知用户能够实时、自主地选择出最优信道进行接入。首先,将认知用户的信道选择问题建模为非合作博弈方式下用户吞吐量最大化问题。其次,分析了信道异构性,以及多个认知用户竞争接入同一信道时由于碰撞所产生的影响,推导了用户可达传输速率和吞吐量的闭合表达式。然后,分析得到了具有纳什均衡特性的认知用户的效用函数,基于全局最优理论,得到了最优信道选择的总和效用函数表达式。接着,设计双向更新算法使认知用户能够在任意方向上迭代更新信道选择策略以实现收益的最大化。最后,分析连续博弈阶段的最佳响应闭合表达式,证明了算法能够收敛到唯一的纳什均衡解。仿真结果表明,论文提出的基于在线决策的信道选择算法与传统方案相比能够显著提高吞吐量;此外,通过扩展实验场景,验证了所提算法能够应用于多接口多信道网络。为了解决基于非合作博弈的在线决策信道选择算法复杂度高的问题,论文进一步提出了一种基于强化学习的离线学习信道选择算法。该算法的学习过程采用半监督学习方式,可以帮助认知用户以“试错”的方式自主渐进式地选择出最优信道进行接入。首先,将认知用户的信道选择问题建模为强化学习方式下信道选择行为对应的“动作-价值”效用函数最大化问题。其次,分析贪婪策略下的信道选择行为,利用贝尔曼最优期望方程解作为每一轮迭代学习的评估标准。然后,将认知用户“探索-利用”的信道选择过程建模为二维马尔科夫链,计算得到每一轮迭代中信道选择行为对应的动作-价值效用函数。接着,分析了算法计算复杂度以及认知用户存储开销,证明了通过对“动作-价值”效用函数执行迭代更新,所提离线学习策略能够收敛到近似贝尔曼最优期望解的信道选择结果。仿真结果表明,论文提出的基于离线学习的信道选择算法能够显著提高吞吐量性能;与上一章中基于在线决策的实时算法相比,以更低的资源消耗达到了满足用户需求的信道选择结果。针对基于TDMA接入方式的认知无线网络中动态时隙选择问题,论文提出了一种基于强化学习的拓扑透明时隙选择算法。该算法的学习过程采用无监督学习方式,学习过程分为冲突避免学习阶段和冗余时隙利用学习阶段,不需要引入控制节点,认知用户仅需要对自身的时隙选择行为进行学习,因此适合于分布式部署。从认知用户在拓扑透明时隙选择过程中亟待解决的如何减少时隙冲突和如何提高时隙利用率等问题出发。首先,从最大化认知用户平均吞吐量的角度对拓扑透明时隙选择问题进行建模,将任意两个认知用户发生碰撞的最大可能次数和子帧时隙数作为优化目标。然后,推导了进行参数优化后用户吞吐量的闭合表达式。在冲突避免学习阶段,首先,将认知用户与干扰用户产生的冲突问题建模为时序差分学习模型。其次,为最小化相邻时刻的时隙选择反馈期望值之间的量化误差,设计前向线性时序差分学习算法更新时隙选择向量,直至收敛到近似最优的反馈期望结果。在冗余时隙利用学习阶段,首先,将上一阶段得到的时隙选择行为对应的动作-价值函数与对应的时隙状态一起构成固定的状态值函数对。其次,将认知用户对冗余时隙利用问题建模为逐帧执行先验经验重放过程,收集连续时刻的固定函数对构建经验重放集合。接着,认知用户在经验重放集合中进行随机抽样,选择状态值函数对。最后,认知用户对当前时隙选择真实值与重放集合固定值之间的均方误差进行优化,并采用随机梯度下降方法对冗余时隙利用向量进行更新,直至收敛到最小二乘结果。仿真结果表明,相比于已有拓扑透明时隙选择方案,论文提出的基于强化学习的拓扑透明时隙选择算法能显著提高吞吐量性能;同时参数优化的结果能够进一步改善吞吐量。
其他文献
C62型全钢敞车的车体两侧各有六根侧柱。侧柱与边梁的组装是由六个(每边三个)直径20毫米的铆钉铆接而成。国内各车辆修造工厂常用的铆接工艺是:侧柱和土边梁分别钻孔,用螺栓
<宋史&#183;三佛齐传>记载,熙宁十年(1077年)其国大首领地华伽罗入贡,但在<注辇传>中却记地华伽罗为注辇国王.因此,对地华伽罗的身份,学术界产生了不同看法.本文认为,<宋史>
<正>静脉输液是基本护理操作项目之一,是临床最常用的技术之一,它要求护理人员不仅要严格按照无菌技术操作,而且要有娴熟的基本技能。如何才能掌握良好的技术,以保证在提高静
炼油厂生产过程中,对污水的处理,必须去除污油、硫及氨氮等物质。通过对含硫污水的处理,采用先进的处理措施,使处理后的污水达到更高的水质标准,减少环境污染。依据炼油厂的含硫污
针对目前公交车制冷制热系统不能实现智能控制的问题,设计了一款基于单片机的公交车温控系统,此系统通过在车内前、中、后部位安装温度控制按键,让乘客自己决定车厢内的温度,
此次访问日本29个单位,专门从事安全研究的有产业安全研究所,兼有安全研究任务的有公害资源研究所,与安全研究有关的还有中央劳动灾害防止协会和安全技术展览馆等。此外,在参
家族势力和家族治理机制经历了不同时代的变迁.在当代,由于农村经济改革和政治改革而出现了家族势力复兴的现象,在局部地区则形成了大家族强势干政的"家族政治"格局.西南民族
云居山云山青冈林是我国中亚热带常绿阔叶林之一,分布在常绿阔叶林分布区的上限。座落在云居山的云山青冈林面积大,群落典型,林相壮观,具有代表性。其外貌终年常绿。乔木建群
萨缪尔&#183;贝克特作为荒诞派戏剧大师,一生创作出多部优秀作品。其中《等待戈多》和《终局》是他的两部代表作,前者为他赢得了诺贝尔文学奖,但后者却少有学者关注。在《终
当归为伞形科植物(Angelica Sinensis Diels)的干燥根。具有补血活血、调经止痛作用。现代医学研究认为,当归对造血功能有促进作用,能显著促进血红蛋白和红细胞生成。其有效