Actor-Critic 相关硕士博士期刊学术论文

Actor-Critic相关论文

协作多智能体深度强化学习研究综述

多智能体系统是由多个智能体与环境交互组成的分布式决策系统，是分布式人工智能的一个重要研究方向，在复杂未知的现实社会具有广阔的......

期刊

多智能体深度学习强化学习协作学习价值分解 Actor-Critic 经验回放

基于深度学习和强化学习的目标跟踪算法研究

目标跟踪是计算机视觉领域的重要研究方向之一,在视频监控、智能机器人、无人驾驶、医疗诊断等多领域有广泛的应用。近几十年来,尽......

学位

目标跟踪深度学习强化学习视觉注意力 Actor-Critic 光流预测

基于强化学习的电动车路径优化研究

随着我国经济的快速发展,社会的物流需求越来越多,但社会物流总费用占GDP的比例却始终高居不下。而运输费用在物流总费用中的占比......

学位

EVRP 多约束强化学习 Actor-Critic

基于强化学习的高精度轴孔装配策略搜索算法研究

轴孔装配是手机生产测试装配领域的常见操作,目前通常还是由人工完成。轴孔自动装配任务仍然是最近几年的一大挑战。传统的方法是......

学位

轴孔装配光纤装配强化学习 Actor-Critic

基于增强学习的符号回归算法研究

符号回归是指在符号表达式空间内寻找能够描述给定数据集的表达式。Genetic Programming(GP)是处理符号回归问题最常用的算法。但G......

学位

蒙特卡洛树搜索遗传编程 Actor-Critic 多智能体增强学习

正则化生成对抗网络研究

著名的物理学家费曼曾经说过:“What I can’t not create,I do not understand”。系统创造事物的能力在一定程度上表明了系统理......

学位

生成对抗网络正则化信息瓶颈 Actor-Critic

基于优先共享经验重放的多智能体深度强化学习方法概述

强化学习在解决序列决策问题方面尤为突出,近年来取得了巨大的发展。针对多智能体强化学习中,智能体与环境进行交互学习时不可避免......

期刊

多智能体强化学习 Actor-Critic 优先经验重放经验分享

连续空间的递归最小二乘行动者—评论家算法

传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出......

期刊

强化学习行动者—评论家方法连续状态动作空间递归最小二乘策略梯度高斯径向基函数 reinforcement learning actor-critic

一种基于高斯过程的行动者评论家算法

强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动......

期刊

强化学习行动者评论家高斯过程贝叶斯推理连续空间 reinforcement learning actor-critic Gaussian proce

基于替代迹的蜂窝网信道分配Actor-Critic算法

针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Ac......

期刊

信道分配蜂窝网络行动者—评论家替代迹 channel allocation cellular network Actor-Critic replace e

自主操作机器人的运动规划控制与抓取策略研究

在工业自动化生产线中,完成搬运、装配等作业的示教型工业机器人都需要具有抓取物体的功能。但是,这种示教型操作机器人不能适应多......

报纸

抓取任务运动控制器深度强化学习 Actor-Critic

基于卷积神经网络的图像细粒度识别方法研究

近年来,随着深度学习技术的不断发展,图像细粒度识别研究也取得了巨大的进展。图像细粒度识别是相对图像粗粒度识别任务而言,指在......

学位

细粒度识别多流网络交叉双线性多尺度特征融合 Bagging Actor-Critic

基于强化学习的多智能体协作策略研究

在多智能体(agent)环境中如何应用强化学习的方法完成特定任务一直以来都是强化学习领域的一个难点,多个智能体之间有效的沟通和协......

学位

强化学习深度学习多智能体 RNN DDPG Actor-Critic

认知无线传感器网络功率控制研究

为了提高无线传感器网络对频谱资源的利用率,文章在无线传感器网络中引入了认知无线电,利用了深度强化学习中提出的完全去中心化MA......

期刊

信道容量功率控制认知无线电 actor-critic channel capacitypower controlcognitive radioactor-c

滑模控制器参数整定的Actor-Critic学习算法

针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计......

期刊

滑模变结构控制 Actor-Critic 强化学习参数整定 sliding mode variable structure controlActor-Crit

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清......

期刊

强化学习深度学习多智能体 RNN DDPG Actor-Critic

基于Actor-Critic学习的自适应PID控制策略研究

PID控制器是现代工业中最常用的控制器,具有结构简单、容易实现、控制效果好和鲁棒性强等特点,能够满足一般的工业控制要求。随着......

学位

电液伺服系统自适应PID控制强化学习 Actor-Critic 径向基网络 Simulink仿真

基于Tile Coding编码和模型学习的Actor-Critic算法

Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导......

期刊

强化学习 Tile Coding Actor-Critic 模型学习函数逼近

基于批量递归最小二乘的自然Actor-Critic算法

为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法......

期刊

自然梯度 Actor-Critic 批次更新递归最小二乘

基于Actor-Critic强化学习的倒立摆智能控制方法

针对模型未知的运动系统的控制问题,提出一种基于Actor-Critic强化学习的智能控制方法。该方法由两个神经网络构成,Actor为基于概......

期刊

Actor-Critic 强化学习智能控制倒立摆控制神经网络

基于自回归预测模型的深度注意力强化学习方法

近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成......

期刊

注意力机制深度强化学习 actor-critic 变分自动编码混合密度网络-循环神经网络

看过本文同时还关注