reinforcementlearning相关论文
The H∞ control method is an effective approach for attenuating the effect of disturbances on practical systems, but it ......
光刻用准分子激光器的能量特性在集成电路的光刻过程中至关重要,直接影响光刻机曝光线条的精度。为了实现对于衡量能量特性的能量......
针对当前遥感目标检测方法只能识别出遥感目标的类别及位置,无法生成与遥感图像内容相关文本描述的问题,提出了一种基于注意力和强......
5G时代移动设备产生了海量数据,其中大多数是多媒体内容。通过无线网络传输如此规模的多媒体内容将会消耗大量无线频谱资源,进而导致......
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生......
强化学习一词出自行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必须增加智能系......
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,时传统的平均奖赏激励学习进行了推广,提......
论文简要介绍了多智能体技术和信息融合系统,将多智能体技术运用到信息融合系统中,对信息融合系统中的模型和方法进行改进,提出了多智......
该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制......
该文提出了一种基于博弈论的函数优化算法。算法将优化问题的搜索空间映射为博弈的策略组合空间,优化目标函数映射为博弈的效用函......
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。......