基于多智能体Q学习的异构车载网络选择方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:shaochao0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要,目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略,从而实现较优的网络资源分配。然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题,同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡。针对上述问题,基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法MQSM。该方法采用多智能体协作学习的思想,利用双Q值表交替更新的方式来获得动作选择的总回报值,最终实现异构车载网络环境
其他文献
基于人脸图像识别年龄及性别是当前人工智能研究的热点之一。提出一种综合卷积神经网络CNN、挤压-激励网络SENet及极限学习机ELM的混合模型。模型中的卷积层用于从人脸图像中提取面部特征,SENet层用于优化卷积层提取的特征,误差最小化极限学习机(EM-ELM)用作分类器以实现面部图像的年龄及性别识别。与现有的流行模型相比,所提模型由于采用了CNN+SENet架构能够从面部图像中提取到更具代表性及最
为了改善发动机叶片的表面粗糙度与残余应力,以提高其工作寿命和机械性能,采用单因素实验结合表面微观形貌分析了各工艺参数对粗糙度与表面残余应力的影响规律;设计关于抛光
人口老龄化所带来的养老服务问题是现代社会面临的严重问题。例如在很多国家跌倒是造成老年人因伤致死的最大原因,因此如何对老年人进行自动摔倒监测就成为养老服务亟待解决的问题。目前,在室内摔倒监测领域中,基于可穿戴设备和基于环境传感器等主流摔倒监测方法面临着设备复杂、成本较高等问题。鉴于此,将人体姿态估计引入摔倒监测领域,提出了一种基于2D视频的摔倒监测算法。首先利用OpenPose数据集提取原始数据中人
为了解决多目标优化的相关问题,提出了求解多目标的蝗虫优化算法,结合单个目标的蝗虫优化算法的搜寻机制、帕累托优势以及拥挤度策略,并在算法中应用种群引导和高斯变异算子,
针对智能车间复杂性程度高、动态不确定性明显、对调度的实时性要求高以及车间机理模型难以描述等特点,对智能车间实时调度问题展开研究,提出一种将仿真优化与遗传规划(SO-GP)算法相结合的调度规则挖掘方法,在优化生产性能的同时满足实时调度的需求。在SO-GP方法设计中,采用二叉树的结构编码,每个GP个体代表一个组合调度规则,并借助仿真获得个体的适应度值。为了进一步提高挖掘过程的时间效率,对构成GP算法的
为减少受学习效应影响的单人作业车间的最大完工时间和工人行走时间,建立了考虑依赖加工时间和的学习效应的单人单工序多机车间调度模型,提出考虑学习效应的多目标贪婪算法(M
转炉炼钢过程中碳、温连续实时预报是终点控制的关键,针对炉次间的时间序列样本差异度大进而影响模型预测精度的问题,提出一种二次相似性度量的即时学习策略加具有反馈补偿机
利用权的思想并结合奇异混合技术,对传统的拟Bézier曲线进行扩展,构造了一种带形状参数的奇异混合拟Bézier曲线。首先将奇异混合函数和三角多项式空间的拟三次Bézier基函
针对疫情期间计算机系统安全课程实验教学面临学生不在校、实验室难以远程访问的难题,提出调整实验教学的设计,充分利用云实验平台和学生自建实验环境相结合的方式开展线上线
针对集装箱码头大量船舶压港后的疏船调度需求,以船舶平均等待靠泊时间最短和港口加班作业成本最低为目标,构建了基于柔性靠泊的港口疏船调度多目标优化模型。采用嵌入邻域搜