Actor-Critic相关论文
多智能体系统是由多个智能体与环境交互组成的分布式决策系统,是分布式人工智能的一个重要研究方向,在复杂未知的现实社会具有广阔的......
目标跟踪是计算机视觉领域的重要研究方向之一,在视频监控、智能机器人、无人驾驶、医疗诊断等多领域有广泛的应用。近几十年来,尽......
随着我国经济的快速发展,社会的物流需求越来越多,但社会物流总费用占GDP的比例却始终高居不下。而运输费用在物流总费用中的占比......
学位
轴孔装配是手机生产测试装配领域的常见操作,目前通常还是由人工完成。轴孔自动装配任务仍然是最近几年的一大挑战。传统的方法是......
学位
符号回归是指在符号表达式空间内寻找能够描述给定数据集的表达式。Genetic Programming(GP)是处理符号回归问题最常用的算法。但G......
著名的物理学家费曼曾经说过:“What I can’t not create,I do not understand”。系统创造事物的能力在一定程度上表明了系统理......
强化学习在解决序列决策问题方面尤为突出,近年来取得了巨大的发展。针对多智能体强化学习中,智能体与环境进行交互学习时不可避免......
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出......
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动......
针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Ac......
在工业自动化生产线中,完成搬运、装配等作业的示教型工业机器人都需要具有抓取物体的功能。但是,这种示教型操作机器人不能适应多......
近年来,随着深度学习技术的不断发展,图像细粒度识别研究也取得了巨大的进展。图像细粒度识别是相对图像粗粒度识别任务而言,指在......
在多智能体(agent)环境中如何应用强化学习的方法完成特定任务一直以来都是强化学习领域的一个难点,多个智能体之间有效的沟通和协......
为了提高无线传感器网络对频谱资源的利用率,文章在无线传感器网络中引入了认知无线电,利用了深度强化学习中提出的完全去中心化MA......
针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
PID控制器是现代工业中最常用的控制器,具有结构简单、容易实现、控制效果好和鲁棒性强等特点,能够满足一般的工业控制要求。随着......
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导......
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法......
针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概......
近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成......