论文部分内容阅读
日益增长的无线通信应用需求对于无线网络性能的要求越来越高,借助个体用户频谱感知、动态接入等认知组网行为中产生的数据,加以融合机器学习等智能化技术,将成为提高无线网络性能的主要发展方向。本文围绕认知无线网络中媒体接入控制(MAC,Medium Access Control)协议和资源分配策略展开研究,采用基于机器学习方法使认知用户能够自主地解决以下三个问题:如何在不同的网络场景中选择合适的MAC协议,如何在基于CSMA/CA接入方式的网络中选择最优无线信道资源,如何在基于TDMA接入方式的网络中选择最优时隙资源,从而提高网络吞吐量性能。本文的主要研究工作和成果如下:针对在集中式认知无线网络场景下单一类型MAC协议应用受限,无法适应网络动态变化的问题,论文提出了一种基于分类学习的MAC协议选择模型。该模型采用监督学习方式,将整个协议选择过程分为学习阶段和决策阶段,这两个阶段迭代进行,可以自主选择不同的MAC协议以适应不同的网络场景。首先,本文选择竞争机制类有代表性的载波监听多址接入/冲突避免(CSMA/CA,Carrier Sense Multiple Access with Collision Avoidance)协议和非竞争机制类有代表性的时分多址接入(TDMA,Time Division Multiple Access)协议作为分类模型备选协议,分析了不同接入方式的MAC协议所适用的网络环境。其次,利用模糊集理论定义了协议选择的评判标准,提出了以MAC协议隶属度作为认知用户是否需要改变当前MAC协议的依据。在学习阶段,首先,收集网络环境参数和认知用户参数用于构建参数特征数据集合,并且收集执行当前MAC协议对应的统计量结果用于构建统计量特征数据集合。其次,利用多粒度知识增量获取算法合并特征数据集合,得到用于分类学习的特征数据集合。然后,利用测试集比较不同分类学习算法对MAC协议选择模型的匹配程度,选择合适的分类算法用于构建分类器。在决策阶段,首先,研究了不同样本特征项对于模型分类准确性的贡献率,并以贡献率高的特征项作为模型分类选择的性能评判指标。其次,将需要决策的样本经过分类器,得到目标分类结果,从而选择出最适合当前网络场景的MAC协议。仿真结果证明,论文提出的MAC协议选择模型能有效地对不同网络特征样本进行分类,帮助认知用户选择最适合当前网络的MAC协议。针对基于CSMA/CA接入方式的认知无线网络信道选择问题,并综合考虑多认知用户竞争接入的影响,提出了一种基于非合作博弈的在线决策信道选择算法。该算法的决策过程采用半监督学习方式,可以在减少控制与协商消息交互的前提下,使得认知用户能够实时、自主地选择出最优信道进行接入。首先,将认知用户的信道选择问题建模为非合作博弈方式下用户吞吐量最大化问题。其次,分析了信道异构性,以及多个认知用户竞争接入同一信道时由于碰撞所产生的影响,推导了用户可达传输速率和吞吐量的闭合表达式。然后,分析得到了具有纳什均衡特性的认知用户的效用函数,基于全局最优理论,得到了最优信道选择的总和效用函数表达式。接着,设计双向更新算法使认知用户能够在任意方向上迭代更新信道选择策略以实现收益的最大化。最后,分析连续博弈阶段的最佳响应闭合表达式,证明了算法能够收敛到唯一的纳什均衡解。仿真结果表明,论文提出的基于在线决策的信道选择算法与传统方案相比能够显著提高吞吐量;此外,通过扩展实验场景,验证了所提算法能够应用于多接口多信道网络。为了解决基于非合作博弈的在线决策信道选择算法复杂度高的问题,论文进一步提出了一种基于强化学习的离线学习信道选择算法。该算法的学习过程采用半监督学习方式,可以帮助认知用户以“试错”的方式自主渐进式地选择出最优信道进行接入。首先,将认知用户的信道选择问题建模为强化学习方式下信道选择行为对应的“动作-价值”效用函数最大化问题。其次,分析贪婪策略下的信道选择行为,利用贝尔曼最优期望方程解作为每一轮迭代学习的评估标准。然后,将认知用户“探索-利用”的信道选择过程建模为二维马尔科夫链,计算得到每一轮迭代中信道选择行为对应的动作-价值效用函数。接着,分析了算法计算复杂度以及认知用户存储开销,证明了通过对“动作-价值”效用函数执行迭代更新,所提离线学习策略能够收敛到近似贝尔曼最优期望解的信道选择结果。仿真结果表明,论文提出的基于离线学习的信道选择算法能够显著提高吞吐量性能;与上一章中基于在线决策的实时算法相比,以更低的资源消耗达到了满足用户需求的信道选择结果。针对基于TDMA接入方式的认知无线网络中动态时隙选择问题,论文提出了一种基于强化学习的拓扑透明时隙选择算法。该算法的学习过程采用无监督学习方式,学习过程分为冲突避免学习阶段和冗余时隙利用学习阶段,不需要引入控制节点,认知用户仅需要对自身的时隙选择行为进行学习,因此适合于分布式部署。从认知用户在拓扑透明时隙选择过程中亟待解决的如何减少时隙冲突和如何提高时隙利用率等问题出发。首先,从最大化认知用户平均吞吐量的角度对拓扑透明时隙选择问题进行建模,将任意两个认知用户发生碰撞的最大可能次数和子帧时隙数作为优化目标。然后,推导了进行参数优化后用户吞吐量的闭合表达式。在冲突避免学习阶段,首先,将认知用户与干扰用户产生的冲突问题建模为时序差分学习模型。其次,为最小化相邻时刻的时隙选择反馈期望值之间的量化误差,设计前向线性时序差分学习算法更新时隙选择向量,直至收敛到近似最优的反馈期望结果。在冗余时隙利用学习阶段,首先,将上一阶段得到的时隙选择行为对应的动作-价值函数与对应的时隙状态一起构成固定的状态值函数对。其次,将认知用户对冗余时隙利用问题建模为逐帧执行先验经验重放过程,收集连续时刻的固定函数对构建经验重放集合。接着,认知用户在经验重放集合中进行随机抽样,选择状态值函数对。最后,认知用户对当前时隙选择真实值与重放集合固定值之间的均方误差进行优化,并采用随机梯度下降方法对冗余时隙利用向量进行更新,直至收敛到最小二乘结果。仿真结果表明,相比于已有拓扑透明时隙选择方案,论文提出的基于强化学习的拓扑透明时隙选择算法能显著提高吞吐量性能;同时参数优化的结果能够进一步改善吞吐量。